論文の概要: LLM Critics Help Catch LLM Bugs
- arxiv url: http://arxiv.org/abs/2407.00215v1
- Date: Fri, 28 Jun 2024 19:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 06:00:32.385493
- Title: LLM Critics Help Catch LLM Bugs
- Title(参考訳): LLM批判はLLMバグをキャッチするのに役立つ
- Authors: Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike,
- Abstract要約: モデル記述コードをより正確に評価するのに役立つ“批判的”モデルをトレーニングします。
自然に発生するエラーを含むコードについては、63%のケースで人間の批判よりもモデルによる批判が好ましい。
当社の微調整LDM批評家は、ChatGPTトレーニングデータに数百のエラーを"flawless"と評価できることを確認した。
- 参考スコア(独自算出の注目度): 5.202065432471293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is fundamentally limited by the capacity of humans to correctly evaluate model output. To improve human evaluation ability and overcome that limitation this work trains "critic" models that help humans to more accurately evaluate model-written code. These critics are themselves LLMs trained with RLHF to write natural language feedback highlighting problems in code from real-world assistant tasks. On code containing naturally occurring LLM errors model-written critiques are preferred over human critiques in 63% of cases, and human evaluation finds that models catch more bugs than human contractors paid for code review. We further confirm that our fine-tuned LLM critics can successfully identify hundreds of errors in ChatGPT training data rated as "flawless", even though the majority of those tasks are non-code tasks and thus out-of-distribution for the critic model. Critics can have limitations of their own, including hallucinated bugs that could mislead humans into making mistakes they might have otherwise avoided, but human-machine teams of critics and contractors catch similar numbers of bugs to LLM critics while hallucinating less than LLMs alone.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、モデル出力を正しく評価する能力によって根本的に制限される。
人間の評価能力を向上し、その限界を克服するために、この作業は、人間がより正確にモデル記述コードを評価するのに役立つ「批判的」モデルを訓練する。
これらの批評家は、実世界のアシスタントタスクからのコードの問題をハイライトする自然言語フィードバックを書くためにRLHFで訓練されたLLMである。
自然発生のLLMエラーを含むコードについては、63%のケースで人間の批判よりもモデル記述の批判の方が好まれる。
さらに、我々の微調整されたLLM批評家は、コード以外のタスクがほとんどであり、批判モデルに非分布であるにもかかわらず、ChatGPTトレーニングデータの数百のエラーを「不正」と評価できることを確認した。
批判者は、人間を誤解して避けたかもしれない間違いを犯すような幻覚的なバグを含む、独自の制限を持つことができるが、批評家や契約業者の人間機械チームは、LLM批判者と同様の数のバグをキャッチし、LLM批判者のみを幻覚させる。
関連論文リスト
- Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - LLMs as Evaluators: A Novel Approach to Evaluate Bug Report Summarization [9.364214238045317]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示した。
本研究では,LSMがバグレポートの要約を効果的に評価できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-01T06:30:39Z) - Evaluating LLMs at Detecting Errors in LLM Responses [30.645694514606507]
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。
我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
論文 参考訳(メタデータ) (2024-04-04T17:19:47Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。
我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文 参考訳(メタデータ) (2023-10-07T14:12:15Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。