論文の概要: Two is better than one: A Collapse-free Multi-Reward RLIF Training Framework
- arxiv url: http://arxiv.org/abs/2605.22620v1
- Date: Thu, 21 May 2026 15:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.325028
- Title: Two is better than one: A Collapse-free Multi-Reward RLIF Training Framework
- Title(参考訳): 2つは1より優れている: 崩壊のないMulti-Reward RLIFトレーニングフレームワーク
- Authors: Shourov Joarder, Diganta Sikdar, Ahsan Habib Akash, Binod Bhattarai, Prashnna Gyawali,
- Abstract要約: 内部フィードバックからの強化学習は、スケーラブルで教師なしの代替手段として最近登場した。
本稿では,学習信号を2つの補完成分に分解するマルチリワードRLIFフレームワークを提案する。
提案手法は,外部の地平監督に頼らずに,安定した長距離推論を支援することができることを示す。
- 参考スコア(独自算出の注目度): 6.490241400619907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has substantially improved the reasoning ability of LLMs, but often depends on external supervision from human annotations or gold-standard solutions. Reinforcement learning from internal feedback (RLIF) has recently emerged as a scalable unsupervised alternative, using signals extracted from the model itself. However, existing RLIF methods typically rely on a single internal reward, which can lead to reward hacking, entropy collapse, and degraded reasoning structure. We propose a multi-reward RLIF framework that decomposes the training signal into two complementary components: an answer-level reward based on cluster voting and a completion-level reward based on token-wise self-certainty. To combine these signals robustly, we apply GDPO-based normalization to reduce reward-scale imbalance. We further introduce KL-Cov regularization, which targets low-entropy token distributions responsible for disproportionate entropy reduction, preserving exploration and preventing late-stage collapse. Across mathematical reasoning and code-generation benchmarks, our method improves stability and robustness over prior unsupervised RL approaches, while achieving performance close to supervised RLVR methods. These results show that complementary internal rewards, combined with targeted regularization, can support stable long-horizon reasoning without relying on external ground-truth supervision. Code will be released soon.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)はLLMの推論能力を大幅に向上させたが、人間のアノテーションや金標準ソリューションからの外部監督に依存していることが多い。
内部フィードバック(RLIF)からの強化学習(Reinforcement Learning)は、最近、モデル自体から抽出された信号を使用して、スケーラブルな教師なしの代替手段として登場した。
しかし、既存のRLIFメソッドは通常、単一の内部報酬に依存しており、それによって報酬のハッキング、エントロピー崩壊、劣化した推論構造につながる可能性がある。
本稿では,学習信号をクラスタ投票に基づく応答レベル報酬とトークン単位の自己確実性に基づく完了レベル報酬の2つの相補的なコンポーネントに分解するマルチリワードRLIFフレームワークを提案する。
これらの信号を強固に組み合わせるために、GDPOに基づく正規化を適用し、報酬スケールの不均衡を低減する。
さらに,KL-Cov正則化を導入し,不均質なエントロピー低減,探索の保存,後期崩壊防止に寄与する低エントロピートークン分布を目標とした。
数学的推論やコード生成のベンチマークを通じて,従来の教師なしRLアプローチよりも安定性と堅牢性を向上し,教師付きRLVR手法に近い性能を実現する。
これらの結果から, 補完的内部報酬と目標正規化が相まって, 外部基幹監督に頼らずに, 安定した長期理性推論を支援できることが示唆された。
コードはまもなくリリースされる。
関連論文リスト
- SAGE: Shaping Anchors for Guided Exploration in RLVR of LLMs [55.46289074417954]
検証可能な報酬(RLVR)による強化学習は、推論タスクのpass@1を確実に改善するが、pass@kでは同等の利得を得られないことが多い。
中心的な構造的制約は、トレーニングを安定させるが、本質的には基準分布にポリシーを固定する逆-KL正規化から生じる。
我々は,逆KLアンカー分布自体を再構成することで,制御可能な経験的サポート拡張を可能にする,原則化されたフレームワークであるSAGEを提案する。
論文 参考訳(メタデータ) (2026-05-15T07:42:21Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Unifying Stable Optimization and Reference Regularization in RLHF [64.16830602324345]
本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
論文 参考訳(メタデータ) (2026-02-12T03:31:19Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。