Fugu-MT 論文翻訳(概要): LLM Critics Help Catch LLM Bugs

論文の概要: LLM Critics Help Catch LLM Bugs

arxiv url: http://arxiv.org/abs/2407.00215v1
Date: Fri, 28 Jun 2024 19:53:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 06:00:32.385493
Title: LLM Critics Help Catch LLM Bugs
Title（参考訳）: LLM批判はLLMバグをキャッチするのに役立つ
Authors: Nat McAleese, Rai Michael Pokorny, Juan Felipe Ceron Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike,
Abstract要約: モデル記述コードをより正確に評価するのに役立つ“批判的”モデルをトレーニングします。自然に発生するエラーを含むコードについては、63%のケースで人間の批判よりもモデルによる批判が好ましい。当社の微調整LDM批評家は、ChatGPTトレーニングデータに数百のエラーを"flawless"と評価できることを確認した。
参考スコア（独自算出の注目度）: 5.202065432471293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning from human feedback (RLHF) is fundamentally limited by the capacity of humans to correctly evaluate model output. To improve human evaluation ability and overcome that limitation this work trains "critic" models that help humans to more accurately evaluate model-written code. These critics are themselves LLMs trained with RLHF to write natural language feedback highlighting problems in code from real-world assistant tasks. On code containing naturally occurring LLM errors model-written critiques are preferred over human critiques in 63% of cases, and human evaluation finds that models catch more bugs than human contractors paid for code review. We further confirm that our fine-tuned LLM critics can successfully identify hundreds of errors in ChatGPT training data rated as "flawless", even though the majority of those tasks are non-code tasks and thus out-of-distribution for the critic model. Critics can have limitations of their own, including hallucinated bugs that could mislead humans into making mistakes they might have otherwise avoided, but human-machine teams of critics and contractors catch similar numbers of bugs to LLM critics while hallucinating less than LLMs alone.
Abstract（参考訳）: 人間のフィードバックからの強化学習(RLHF)は、モデル出力を正しく評価する能力によって根本的に制限される。人間の評価能力を向上し、その限界を克服するために、この作業は、人間がより正確にモデル記述コードを評価するのに役立つ「批判的」モデルを訓練する。これらの批評家は、実世界のアシスタントタスクからのコードの問題をハイライトする自然言語フィードバックを書くためにRLHFで訓練されたLLMである。自然発生のLLMエラーを含むコードについては、63%のケースで人間の批判よりもモデル記述の批判の方が好まれる。さらに、我々の微調整されたLLM批評家は、コード以外のタスクがほとんどであり、批判モデルに非分布であるにもかかわらず、ChatGPTトレーニングデータの数百のエラーを「不正」と評価できることを確認した。批判者は、人間を誤解して避けたかもしれない間違いを犯すような幻覚的なバグを含む、独自の制限を持つことができるが、批評家や契約業者の人間機械チームは、LLM批判者と同様の数のバグをキャッチし、LLM批判者のみを幻覚させる。

関連論文リスト

DeepCritic: Deliberate Critique with Large Language Models [77.5516314477878]
我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。 Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
論文参考訳（メタデータ） (2025-05-01T17:03:17Z)
Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [0.0]
強化学習はしばしば報酬の相違を伴う課題に直面します。 HIL(Human-in-the-loop)メソッドは、不整合性、主観的、あるいは不整合性フィードバックにつながるバイアスが伴うため、問題を悪化させる可能性がある。
論文参考訳（メタデータ） (2025-03-26T03:17:12Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文参考訳（メタデータ） (2024-10-20T04:57:45Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
LLMs as Evaluators: A Novel Approach to Evaluate Bug Report Summarization [9.364214238045317]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示した。本研究では,LSMがバグレポートの要約を効果的に評価できるかどうかを検討する。
論文参考訳（メタデータ） (2024-09-01T06:30:39Z)
Evaluating LLMs at Detecting Errors in LLM Responses [30.645694514606507]
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
論文参考訳（メタデータ） (2024-04-04T17:19:47Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
Critique Ability of Large Language Models [38.34144195927209]
本研究では,大規模言語モデル(LLM)が様々なタスクに対して正確な批評を提供する能力について検討する。我々は,高品質な自然言語クエリとそれに対応するモデル応答からなるCriticBenchというベンチマークを開発した。
論文参考訳（メタデータ） (2023-10-07T14:12:15Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。