論文の概要: From the Inside Out: Progressive Distribution Refinement for Confidence Calibration
- arxiv url: http://arxiv.org/abs/2603.16500v1
- Date: Tue, 17 Mar 2026 13:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.300263
- Title: From the Inside Out: Progressive Distribution Refinement for Confidence Calibration
- Title(参考訳): 内部から:信頼度校正のための漸進的流通調整
- Authors: Xizhong Yang, Yinan Xia, Huiming Wang, Mofei Song,
- Abstract要約: 強化学習(RL)において、モデルの内部情報を自己回帰信号として活用することは、ラベルのない性質のために広く注目を集めている。
本稿では、RLにおけるモデルの信頼度に先立って分布を利用して報酬信号を段階的に最適化するDistriTTRLを提案する。
我々は、多様性を目標とした罰則を通じて、投票ベースのTS戦略による一貫した報酬ハッキングの現象を緩和する。
- 参考スコア(独自算出の注目度): 11.940520783793337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging the model's internal information as the self-reward signal in Reinforcement Learning (RL) has received extensive attention due to its label-free nature. While prior works have made significant progress in applying the Test-Time Scaling (TTS) strategies to RL, the discrepancy in internal information between test and training remains inadequately addressed. Moreover, Test-Time Training based on voting-based TTS strategies often suffers from reward hacking problems. To address these issues, we propose DistriTTRL, which leverages the distribution prior of the model's confidence during RL to progressively optimize the reward signal, rather than relying solely on single-query rollouts. Additionally, we mitigate the phenomenon of consistent reward hacking caused by the voting-based TTS strategies through diversity-targeted penalties. Benefiting from this training mechanism where model capability and self-reward signals complement each other, and the mitigation of reward hacking, DistriTTRL has achieved significant performance improvements across multiple models and benchmarks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)における自己回帰信号としてモデルの内部情報を活用することは, ラベルフリーの性質から, 広く注目を集めている。
これまでの作業ではテスト時間スケーリング(TTS)戦略をRLに適用する上で大きな進歩があったが、テストとトレーニングの間の内部情報の相違は依然として不十分である。
さらに、投票ベースのTS戦略に基づくテストタイムトレーニングは、しばしば報酬ハッキングの問題に悩まされる。
これらの問題に対処するため、本研究では、RLにおけるモデルの信頼性に先立って分布を利用して報酬信号を段階的に最適化するDistriTTRLを提案する。
さらに、多様性を目標とした罰則を通じて、投票ベースのTS戦略による一貫した報酬ハッキングの現象を緩和する。
モデル能力と自己回帰信号が相互に補完するこのトレーニングメカニズムと、報酬ハックの緩和により、DistriTTRLは複数のモデルとベンチマークで大幅なパフォーマンス向上を達成した。
関連論文リスト
- Reinforcement Learning with Backtracking Feedback [12.680874918250069]
フィードバックフィードバックを用いた強化学習(RLBF)を紹介する。
このフレームワークは、BSAFEのような事前の手法に進化する。
RLBFは様々なベンチマークやモデルスケールでの攻撃成功率を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2026-02-09T08:23:19Z) - SWE-RM: Execution-free Feedback For Software Engineering Agents [61.86380395896069]
実行ベースフィードバックは、テストタイムスケーリング(TTS)と強化学習(RL)を通じて、コーディングエージェントの開発に広く利用されている。
対照的に、報酬モデルによる実行不要なフィードバックは、単体テストケースに依存することなく、よりきめ細かい信号を提供することができる。
SWE-RMは,30Bの合計パラメータと3Bのアクティベートされた3Bの混合実験アーキテクチャを採用した,正確で堅牢な報酬モデルである。
論文 参考訳(メタデータ) (2025-12-26T08:26:18Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - ETTRL: Balancing Exploration and Exploitation in LLM Test-Time Reinforcement Learning Via Entropy Mechanism [10.913346263482786]
実験時間強化学習における探索・探索バランスを高めるためのエントロピーに基づくメカニズムを提案する。
ベースラインと比較すると、Llama3.1-8Bは1メートルでのパスの68%の相対的な改善を達成できる。
論文 参考訳(メタデータ) (2025-08-15T09:49:14Z) - Post-Training Large Language Models via Reinforcement Learning from Self-Feedback [3.73824942136665]
大規模言語モデル(LLM)は、しばしば可算だが校正が不十分な回答を生成する。
本稿では,自己フィードバックによる強化学習(RLSF)について紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:46:26Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。