論文の概要: LLM Critics Help Catch LLM Bugs
- arxiv url: http://arxiv.org/abs/2407.00215v1
- Date: Fri, 28 Jun 2024 19:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:00:32.385493
- Title: LLM Critics Help Catch LLM Bugs
- Title(参考訳): LLM批判はLLMバグをキャッチするのに役立つ
- Authors: Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike,
- Abstract要約: モデル記述コードをより正確に評価するのに役立つ“批判的”モデルをトレーニングします。
自然に発生するエラーを含むコードについては、63%のケースで人間の批判よりもモデルによる批判が好ましい。
当社の微調整LDM批評家は、ChatGPTトレーニングデータに数百のエラーを"flawless"と評価できることを確認した。
- 参考スコア(独自算出の注目度): 5.202065432471293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is fundamentally limited by the capacity of humans to correctly evaluate model output. To improve human evaluation ability and overcome that limitation this work trains "critic" models that help humans to more accurately evaluate model-written code. These critics are themselves LLMs trained with RLHF to write natural language feedback highlighting problems in code from real-world assistant tasks. On code containing naturally occurring LLM errors model-written critiques are preferred over human critiques in 63% of cases, and human evaluation finds that models catch more bugs than human contractors paid for code review. We further confirm that our fine-tuned LLM critics can successfully identify hundreds of errors in ChatGPT training data rated as "flawless", even though the majority of those tasks are non-code tasks and thus out-of-distribution for the critic model. Critics can have limitations of their own, including hallucinated bugs that could mislead humans into making mistakes they might have otherwise avoided, but human-machine teams of critics and contractors catch similar numbers of bugs to LLM critics while hallucinating less than LLMs alone.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、モデル出力を正しく評価する能力によって根本的に制限される。
人間の評価能力を向上し、その限界を克服するために、この作業は、人間がより正確にモデル記述コードを評価するのに役立つ「批判的」モデルを訓練する。
これらの批評家は、実世界のアシスタントタスクからのコードの問題をハイライトする自然言語フィードバックを書くためにRLHFで訓練されたLLMである。
自然発生のLLMエラーを含むコードについては、63%のケースで人間の批判よりもモデル記述の批判の方が好まれる。
さらに、我々の微調整されたLLM批評家は、コード以外のタスクがほとんどであり、批判モデルに非分布であるにもかかわらず、ChatGPTトレーニングデータの数百のエラーを「不正」と評価できることを確認した。
批判者は、人間を誤解して避けたかもしれない間違いを犯すような幻覚的なバグを含む、独自の制限を持つことができるが、批評家や契約業者の人間機械チームは、LLM批判者と同様の数のバグをキャッチし、LLM批判者のみを幻覚させる。
関連論文リスト
- Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - LLMs as Evaluators: A Novel Approach to Evaluate Bug Report Summarization [9.364214238045317]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示した。
本研究では,LSMがバグレポートの要約を効果的に評価できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-01T06:30:39Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。
我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文 参考訳(メタデータ) (2023-10-07T14:12:15Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。