Fugu-MT 論文翻訳(概要): Self-Generated Critiques Boost Reward Modeling for Language Models

論文の概要: Self-Generated Critiques Boost Reward Modeling for Language Models

arxiv url: http://arxiv.org/abs/2411.16646v2
Date: Thu, 19 Dec 2024 04:50:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 16:30:38.129321
Title: Self-Generated Critiques Boost Reward Modeling for Language Models
Title（参考訳）: 自己生成的批判は言語モデルのリワードモデリングを促進する
Authors: Yue Yu, Zhengxing Chen, Aston Zhang, Liang Tan, Chenguang Zhu, Richard Yuanzhe Pang, Yundi Qian, Xuewei Wang, Suchin Gururangan, Chao Zhang, Melanie Kambadur, Dhruv Mahajan, Rui Hou,
Abstract要約: Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
参考スコア（独自算出の注目度）: 57.60881438647227
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Reward modeling is crucial for aligning large language models (LLMs) with human preferences, especially in reinforcement learning from human feedback (RLHF). However, current reward models mainly produce scalar scores and struggle to incorporate critiques in a natural language format. We hypothesize that predicting both critiques and the scalar reward would improve reward modeling ability. Motivated by this, we propose Critic-RM, a framework that improves reward models using self-generated critiques without extra supervision. Critic-RM employs a two-stage process: generating and filtering high-quality critiques, followed by joint fine-tuning on reward prediction and critique generation. Experiments across benchmarks show that Critic-RM improves reward modeling accuracy by 3.7%-7.3% compared to standard reward models and LLM judges, demonstrating strong performance and data efficiency. Additional studies further validate the effectiveness of generated critiques in rectifying flawed reasoning steps with 2.5%-3.2% gains in improving reasoning accuracy.
Abstract（参考訳）: リワードモデリングは、大規模言語モデル(LLM)と人間の嗜好の整合性、特に人間からのフィードバック(RLHF)からの強化学習に不可欠である。しかし、現在の報酬モデルは主にスカラースコアを生成し、自然言語形式に批評を組み込むのに苦労している。我々は、批判とスカラー報酬の両方を予測することは、報酬モデリング能力を向上させると仮定する。そこで我々は, 余分な監督なしに自己生成的批評を用いて報酬モデルを改善するフレームワーク, Critic-RMを提案する。批判-RMは、高品質な批評の生成とフィルタリングと、報酬予測と批評生成に関する共同微調整という2段階のプロセスを採用している。ベンチマークによる実験では、Cric-RMは標準的な報酬モデルやLLMの審査員と比較して報酬モデリングの精度を3.7%-7.3%改善し、高い性能とデータ効率を示している。さらなる研究により、2.5%-3.2%の精度で、欠陥のある推論ステップの修正における生成された批判の有効性が検証された。

関連論文リスト

RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback [57.967762383794806]
RefCriticは、二重ルールベースの報酬による強化学習に基づく、長鎖の批判モジュールである。我々は5つのベンチマークでQwen2.5-14BとDeepSeek-R1-Distill-Qwen-14BのRefCriticを評価した。
論文参考訳（メタデータ） (2025-07-20T16:19:51Z)
Training Language Model to Critique for Better Refinement [58.73039433159486]
textbfRefinement-oriented textbfCritique textbfOptimization (RCO)を導入する。 RCOは、批評家モデルによって生成された批評がアクターモデルに応答を洗練させるためのフィードバックループを使用する。より良い改善につながる批判に焦点を当てることで、RCOは直接的な批判的嗜好評価の必要性を排除している。
論文参考訳（メタデータ） (2025-06-27T12:10:57Z)
ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models [9.30148520355391]
本稿では,3段階生成報酬モデルフレームワークReasonGRMを紹介する。第1段階では、ゼロRLは簡潔で結果指向の推論パスを生成するために使用される。第2段階では、$Rstar$は、生成可能性に基づいて推論パスをスコアする。最終段階では、モデルは強化学習によりさらに洗練され、好みの識別能力が向上する。
論文参考訳（メタデータ） (2025-06-20T03:10:52Z)
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:39:02Z)
Rethinking Reward Model Evaluation Through the Lens of Reward Overoptimization [15.729285736811383]
リワードモデルは、人間のフィードバックからの強化学習において重要な役割を果たす。既存の報酬モデルベンチマークは、最適化されたポリシーの性能と弱い相関を示す。
論文参考訳（メタデータ） (2025-05-19T06:43:08Z)
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning [99.645427839457]
セルフプレイ批判(Self-Play Critic、SPC)は、対戦型セルフプレイゲームを通じて推論ステップを評価する能力を進化させる新しいアプローチである。 SPCは、ベースモデルの2つのコピーを微調整して、2つの役割、すなわち「スニーキージェネレータ」と「批判的」を演じる。
論文参考訳（メタデータ） (2025-04-27T08:45:06Z)
Teaching Language Models to Critique via Reinforcement Learning [59.36253627145115]
我々は、textttCTRL$でトレーニングされた批評家が、パスレートを大幅に向上し、ベースモデルとより強力なジェネレータモデルの両方でエラーを軽減することを示した。また、これらの批判モデルが正確な生成報酬モデルとして機能し、反復的批評・修正によるテストタイムスケーリングを可能にすることを示す。
論文参考訳（メタデータ） (2025-02-05T02:18:46Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文参考訳（メタデータ） (2024-10-28T21:18:49Z)
Elephant in the Room: Unveiling the Impact of Reward Model Quality in Alignment [50.21842377409232]
重要な役割の報酬モデルが整列するにもかかわらず、以前の作品は一貫してパフォーマンスを見落としている。本研究は、まず、広く使われている嗜好データセットHH-RLHFの品質を調査し、クリーンバージョンCHH-RLHFをキュレートする。本稿では,CHH-RLHFに基づいて,従来のアライメント作業で使用する幅広い報酬モデルの精度をベンチマークし,最適化と評価の両方に使用するという信頼性の欠如を明らかにした。
論文参考訳（メタデータ） (2024-09-26T04:28:35Z)
Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文参考訳（メタデータ） (2024-09-23T02:08:20Z)
Critique-out-Loud Reward Models [20.631830494414096]
本稿では,Crytique-out-Loud(CLoud)報酬モデルを紹介する。 CLoud報酬モデルは、まずアシスタントの応答に対する自然言語の批判を生成することで機能する。我々は,Llama-3-8Bおよび70BベースモデルのCLoud報酬モデルの成功例を示した。
論文参考訳（メタデータ） (2024-08-21T17:24:15Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
Improving Reward Models with Synthetic Critiques [20.180933963110814]
リワードモデル(RM)は、人間のフィードバックからの強化学習を通じて言語モデルを整合させる上で重要な役割を担っている。本稿では,大規模言語モデルが生成する合成自然言語批判を用いて,新たなフィードバックを提供する手法を提案する。本研究では,異なる事前学習モデルによるRMの性能とデータ効率の向上を実証する。
論文参考訳（メタデータ） (2024-05-31T14:33:07Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Towards Reliable and Fluent Large Language Models: Incorporating Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文参考訳（メタデータ） (2023-09-08T09:39:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。