論文の概要: Confidence as a Reward: Transforming LLMs into Reward Models
- arxiv url: http://arxiv.org/abs/2510.13501v1
- Date: Wed, 15 Oct 2025 12:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.673393
- Title: Confidence as a Reward: Transforming LLMs into Reward Models
- Title(参考訳): リワードとしての信頼: LLMをリワードモデルに変換する
- Authors: He Du, Bowen Li, Chengxing Xie, Chang Gao, Kai Chen, Dacheng Tao,
- Abstract要約: Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
- 参考スコア(独自算出の注目度): 54.98336080630691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models can significantly enhance the reasoning capabilities of large language models (LLMs), but they typically require extensive curated data and costly training. To mitigate these challenges, training-free approaches such as LLM-as-a-Judge leverage the intrinsic reasoning abilities of LLMs to evaluate responses, achieving promising results. Recent works have also indicated that model confidence can serve effectively as a reward metric, distinguishing between chain-of-thought (CoT) and non-CoT paths. However, the concept of using confidence as a reward has not been comprehensively studied. In this work, we systematically investigate Confidence-as-a-Reward (CRew), a simple yet powerful training-free method that utilizes token-level confidence in the model's final answers as a proxy for reward, especially suitable for close-ended tasks. Through extensive experiments on mathematical reasoning tasks, we demonstrate that CRew outperforms existing training-free reward approaches on the MATH500 and RewardMATH benchmarks, and even surpasses most trained reward models. We further identify a strong correlation between CRew scores and the actual reasoning performance of the model. Additionally, we find that CRew can effectively filter high-quality training data. Building upon these insights, we propose CRew-DPO, a training strategy that constructs preference data from confidence scores combined with correctness signals. Finetuning with CRew-DPO further enhances the model's judging capabilities and consistently outperforms existing self-training methods.
- Abstract(参考訳): リワードモデルは、大きな言語モデル(LLM)の推論能力を大幅に向上させるが、通常、広範囲にキュレートされたデータと高価なトレーニングを必要とする。
これらの課題を緩和するために、LLM-as-a-Judgeのようなトレーニング不要なアプローチは、LLMの本質的な推論能力を活用して応答を評価し、有望な結果を達成する。
近年の研究では、モデル信頼度は、チェーン・オブ・シント(CoT)と非CoTパスを区別する報奨指標として効果的に機能することが示されている。
しかし、報酬として信頼を用いるという概念は包括的に研究されていない。
本研究では,モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用し,特にクローズドタスクに適した,シンプルで強力なトレーニングフリー手法であるConfidence-as-a-Reward(CRew)を体系的に検討する。
数学的推論タスクに関する広範な実験を通じて、CRewはMATH500およびRewardMATHベンチマークにおいて既存のトレーニングなし報酬アプローチよりも優れており、最も訓練された報酬モデルよりも優れていることを実証する。
さらに、クリュースコアとモデルの実際の推論性能との強い相関関係を同定する。
さらに、CRewは高品質なトレーニングデータを効果的にフィルタリングできることがわかった。
これらの知見に基づいて、信頼度スコアと正当性信号を組み合わせた選好データを構築する訓練戦略であるCRew-DPOを提案する。
CRew-DPOによるファインタニングにより、モデルの判断能力はさらに向上し、既存の自己学習方法よりも一貫して向上する。
関連論文リスト
- Post-Training Large Language Models via Reinforcement Learning from Self-Feedback [3.73824942136665]
大規模言語モデル(LLM)は、しばしば可算だが校正が不十分な回答を生成する。
本稿では,自己フィードバックによる強化学習(RLSF)について紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:46:26Z) - Generalist Reward Models: Found Inside Large Language Models [50.7432354447554]
我々は,従来の次世代予測によって訓練されたLarge Language Models (LLM) の中に,強力な報酬モデルが存在することを示す。
この内因性報酬は、オフライン逆強化学習によって学習された報酬関数ではないことを実証する。
また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つポリシーにつながることを証明した。
論文 参考訳(メタデータ) (2025-06-29T13:45:54Z) - Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。
強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。
本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T15:38:25Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - On the Diminishing Returns of Complex Robust RAG Training in the Era of Powerful LLMs [85.688901949146]
複雑な堅牢なトレーニング手法の利点は、言語モデルがより強力になるにつれて減少するのだろうか?
モデルキャパシティが増大するにつれて、高度なトレーニング戦略の限界ロバスト性利益は大幅に減少する。
さらなる調査により、より強力なモデルは、単純な訓練体制下であっても、より優れた信頼性キャリブレーション、クロスデータセットの一般化能力、より効果的な注意パターンを自然に示すことが示される。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。