論文の概要: Confidence as a Reward: Transforming LLMs into Reward Models
- arxiv url: http://arxiv.org/abs/2510.13501v1
- Date: Wed, 15 Oct 2025 12:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.673393
- Title: Confidence as a Reward: Transforming LLMs into Reward Models
- Title(参考訳): リワードとしての信頼: LLMをリワードモデルに変換する
- Authors: He Du, Bowen Li, Chengxing Xie, Chang Gao, Kai Chen, Dacheng Tao,
- Abstract要約: Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
- 参考スコア(独自算出の注目度): 54.98336080630691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models can significantly enhance the reasoning capabilities of large language models (LLMs), but they typically require extensive curated data and costly training. To mitigate these challenges, training-free approaches such as LLM-as-a-Judge leverage the intrinsic reasoning abilities of LLMs to evaluate responses, achieving promising results. Recent works have also indicated that model confidence can serve effectively as a reward metric, distinguishing between chain-of-thought (CoT) and non-CoT paths. However, the concept of using confidence as a reward has not been comprehensively studied. In this work, we systematically investigate Confidence-as-a-Reward (CRew), a simple yet powerful training-free method that utilizes token-level confidence in the model's final answers as a proxy for reward, especially suitable for close-ended tasks. Through extensive experiments on mathematical reasoning tasks, we demonstrate that CRew outperforms existing training-free reward approaches on the MATH500 and RewardMATH benchmarks, and even surpasses most trained reward models. We further identify a strong correlation between CRew scores and the actual reasoning performance of the model. Additionally, we find that CRew can effectively filter high-quality training data. Building upon these insights, we propose CRew-DPO, a training strategy that constructs preference data from confidence scores combined with correctness signals. Finetuning with CRew-DPO further enhances the model's judging capabilities and consistently outperforms existing self-training methods.
- Abstract(参考訳): リワードモデルは、大きな言語モデル(LLM)の推論能力を大幅に向上させるが、通常、広範囲にキュレートされたデータと高価なトレーニングを必要とする。
これらの課題を緩和するために、LLM-as-a-Judgeのようなトレーニング不要なアプローチは、LLMの本質的な推論能力を活用して応答を評価し、有望な結果を達成する。
近年の研究では、モデル信頼度は、チェーン・オブ・シント(CoT)と非CoTパスを区別する報奨指標として効果的に機能することが示されている。
しかし、報酬として信頼を用いるという概念は包括的に研究されていない。
本研究では,モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用し,特にクローズドタスクに適した,シンプルで強力なトレーニングフリー手法であるConfidence-as-a-Reward(CRew)を体系的に検討する。
数学的推論タスクに関する広範な実験を通じて、CRewはMATH500およびRewardMATHベンチマークにおいて既存のトレーニングなし報酬アプローチよりも優れており、最も訓練された報酬モデルよりも優れていることを実証する。
さらに、クリュースコアとモデルの実際の推論性能との強い相関関係を同定する。
さらに、CRewは高品質なトレーニングデータを効果的にフィルタリングできることがわかった。
これらの知見に基づいて、信頼度スコアと正当性信号を組み合わせた選好データを構築する訓練戦略であるCRew-DPOを提案する。
CRew-DPOによるファインタニングにより、モデルの判断能力はさらに向上し、既存の自己学習方法よりも一貫して向上する。
関連論文リスト
- Reward Modeling for Reinforcement Learning-Based LLM Reasoning: Design, Challenges, and Evaluation [46.38008143057758]
大きな言語モデル(LLM)は変革の可能性を示しているが、その推論は矛盾し、信頼できないままである。
この研究は、報酬モデリングは単なる実装の詳細ではなく、推論アライメントの中心的なアーキテクトであると主張している。
本枠組みでは,報奨機構の分類,報奨ハッキングを広範にわたる障害モードとして分析し,報奨が課題を統一する方法について検討する。
論文 参考訳(メタデータ) (2026-02-10T00:45:24Z) - PRISM: A Unified Framework for Post-Training LLMs Without Verifiable Rewards [16.15363954575401]
大規模言語モデルの訓練後の現在の技術は、費用のかかる人事監督や外部検証に頼っている。
PRISMは、プロセス・リワード・モデル(Process Reward Model, PRM)を用いて、モデルの内部信頼度とともに学習をガイドする統合トレーニングフレームワークである。
PRMと自己確実性を効果的に組み合わせることで,安定したトレーニングとテスト時間性能の両立が期待できることを示す。
論文 参考訳(メタデータ) (2026-01-08T08:09:29Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Post-Training Large Language Models via Reinforcement Learning from Self-Feedback [3.73824942136665]
大規模言語モデル(LLM)は、しばしば可算だが校正が不十分な回答を生成する。
本稿では,自己フィードバックによる強化学習(RLSF)について紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:46:26Z) - Generalist Reward Models: Found Inside Large Language Models [50.7432354447554]
我々は,従来の次世代予測によって訓練されたLarge Language Models (LLM) の中に,強力な報酬モデルが存在することを示す。
この内因性報酬は、オフライン逆強化学習によって学習された報酬関数ではないことを実証する。
また、この内因性報酬を用いた後続の強化学習が、ベースモデルと比較して明らかに優れたエラー境界を持つポリシーにつながることを証明した。
論文 参考訳(メタデータ) (2025-06-29T13:45:54Z) - Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。
強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。
本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T15:38:25Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - On the Diminishing Returns of Complex Robust RAG Training in the Era of Powerful LLMs [85.688901949146]
複雑な堅牢なトレーニング手法の利点は、言語モデルがより強力になるにつれて減少するのだろうか?
モデルキャパシティが増大するにつれて、高度なトレーニング戦略の限界ロバスト性利益は大幅に減少する。
さらなる調査により、より強力なモデルは、単純な訓練体制下であっても、より優れた信頼性キャリブレーション、クロスデータセットの一般化能力、より効果的な注意パターンを自然に示すことが示される。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。