論文の概要: Distribution-Aware Reward Estimation for Test-Time Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.21804v1
- Date: Thu, 29 Jan 2026 14:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.907784
- Title: Distribution-Aware Reward Estimation for Test-Time Reinforcement Learning
- Title(参考訳): テスト時間強化学習のための分布認識リワード推定
- Authors: Bodong Du, Xuanqi Huang, Xiaomeng Li,
- Abstract要約: テスト時強化学習(TTRL)は、大規模言語モデルでラベルなし入力を自己改善することを可能にする。
既存のTTRL法の多くは、決定論的報酬を生み出すために、ロールアウトよりも多数決(MV)に頼っている。
本研究では,報酬推定を1つの過半数結果から完全な経験的ロールアウト分布にシフトする分散アウェアリワード推定(DARE)を提案する。
- 参考スコア(独自算出の注目度): 10.571602226707473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time reinforcement learning (TTRL) enables large language models (LLMs) to self-improve on unlabeled inputs, but its effectiveness critically depends on how reward signals are estimated without ground-truth supervision. Most existing TTRL methods rely on majority voting (MV) over rollouts to produce deterministic rewards, implicitly assuming that the majority rollout provides a reliable learning signal. We show that this assumption is fragile: MV reduces the rollout distribution into a single outcome, discarding information about non-majority but correct actions candidates, and yields systematically biased reward estimates. To address this, we propose Distribution-AwareReward Estimation (DARE), which shifts reward estimation from a single majority outcome to the full empirical rollout distribution. DARE further augments this distribution-based reward with an exploration bonus and a distribution pruning mechanism for non-majority rollout exploration and reward denoise, yielding a more informative and robust reward estimation. Extensive experiments on challenging reasoning benchmarks show that DARE improves optimization stability and final performance over recent baselines, achieving relative improvements of 25.3% on challenging AIME 2024 and 5.3% on AMC.
- Abstract(参考訳): テスト時強化学習(TTRL)は、大規模言語モデル(LLM)をラベルなし入力で自己改善することを可能にするが、その効果は、地道的な監督なしに報酬信号をどのように見積もるかに大きく依存する。
既存のTTRL法の多くは、多数決投票(MV)を頼りに、多数決投票が信頼できる学習信号を提供すると暗黙的に仮定して、決定論的報酬を生み出す。
MVはロールアウト分布を1つの結果に減らし、不正だが正しい行動候補に関する情報を捨て、体系的に偏りのある報酬推定値を得る。
そこで本研究では,報酬推定を1つの過半数結果から完全な経験的ロールアウト分布にシフトする分散・アウェア・アワード推定(DARE)を提案する。
DAREはさらに、この分散ベースの報酬を探索ボーナスと、非巨額のロールアウト探索と報酬妄想のための分配プルーニングメカニズムで強化し、より情報的で堅牢な報酬推定をもたらす。
挑戦的推論ベンチマークに関する大規模な実験は、DAREが最近のベースラインよりも最適化の安定性と最終性能を改善し、挑戦的AIME 2024とAMCの5.3%に対して相対的な改善を25.3%達成していることを示している。
関連論文リスト
- Segmental Advantage Estimation: Enhancing PPO for Long-Context LLM Training [17.530233901658253]
セグメンショナルアドバンテージ推定は、一般化アドバンテージ推定が検証されたリワードを用いた強化学習において生じるバイアスを緩和する。
SAEは、最終的なスコア、安定性、サンプル効率を著しく改善し、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-12T08:41:47Z) - Beyond Majority Voting: Towards Fine-grained and More Reliable Reward Signal for Test-Time Reinforcement Learning [12.354777054071379]
テスト時間強化学習は、多数決結果を擬似ラベルとして使用することにより、注釈付きデータへの依存を軽減する。
この投票戦略は、しばしば確認バイアスを引き起こし、スパース報酬に悩まされ、全体的なパフォーマンスが制限される。
これらの問題に対処するために,サブグループ固有のステップワイド信頼度重み付き擬似ラベル推定(SCOPE)を提案する。
論文 参考訳(メタデータ) (2025-12-17T07:21:54Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Hybrid Reward Normalization for Process-supervised Non-verifiable Agentic Tasks [12.31210445905605]
ステップレベルの評価と結果の検証を統一するRLアプローチである原則プロセス・リワード(PPR)を導入する。
PPRは幅広いベンチマークで最先端のパフォーマンスを実現し、その顕著な堅牢性と一般化を実証している。
論文 参考訳(メタデータ) (2025-09-29T23:44:55Z) - Self-Aligned Reward: Towards Effective and Efficient Reasoners [16.740993145927774]
自己整合報酬 (Self-aligned reward, SAR) は、検証可能な報酬を補完し、推論精度と効率の両方を奨励する自己誘導信号である。
SARは, 正確さ, 正解スコアが冗長性よりも高く, 正解スコアが完全誤解よりも高いという, 解答品質を確実に区別することを示す。
論文 参考訳(メタデータ) (2025-09-05T20:39:43Z) - Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning [90.23629291067763]
大規模言語モデルにおける推論を改善するための有望なアプローチは、プロセス報酬モデル(PRM)を使用することである。
PRMは多段階の推論トレースの各ステップでフィードバックを提供し、結果報酬モデル(ORM)よりも信用割当を改善する可能性がある。
PRMに対して探索を行ったり、強化学習(RL)の報酬として使ったりすることで、基本方針を改善するために、「プロセス報酬をどう設計すべきか?」と質問する。
理論的には,良質なプロデューサの集合を特徴付けるとともに,このようなプロデューサからのプロセス報酬の最適化が,テスト時間探索やオンラインRLの探索を改善することを示す。
論文 参考訳(メタデータ) (2024-10-10T17:31:23Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。