論文の概要: The Two-Stage Decision-Sampling Hypothesis: Understanding the Emergence of Self-Reflection in RL-Trained LLMs
- arxiv url: http://arxiv.org/abs/2601.01580v1
- Date: Sun, 04 Jan 2026 15:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.542498
- Title: The Two-Stage Decision-Sampling Hypothesis: Understanding the Emergence of Self-Reflection in RL-Trained LLMs
- Title(参考訳): 2段階決定サンプリング仮説:RL-Trained LLMにおける自己回帰の創発性を理解する
- Authors: Zibo Zhao, Yuanting Zha, Haipeng Zhang, Xingcheng Xu,
- Abstract要約: 我々は、報酬勾配が政策コンポーネント間でどのように分散するかを特徴付けるために、グラディエント属性(Gradient Attribution Property)を導入する。
また,SFTとKLの罰則はバランスの取れたグラディエント属性を示すのに対し,サロゲート報酬はバランスの取れたグラディエント属性を示すことが証明された。
また、算術的推論に関する理論的予測を実証的に検証する。
- 参考スコア(独自算出の注目度): 8.563321259359244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-reflection capabilities emerge in Large Language Models after RL post-training, with multi-turn RL achieving substantial gains over SFT counterparts. Yet the mechanism of how a unified optimization objective gives rise to functionally distinct capabilities of generating solutions and evaluating when to revise them remains opaque. To address this question, we introduce the Gradient Attribution Property to characterize how reward gradients distribute across policy components, formalized through the Two-Stage Decision-Sampling (DS) Hypothesis, which decomposes the policy into sampling ($π_{sample}$) for generation and decision ($π_{d}$) for verification. We prove that surrogate rewards exhibit Balanced Gradient Attribution, while SFT and KL penalties exhibit Unbalanced Gradient Attribution, with length-weighting creating asymmetric regularization that constrains $π_{sample}$ while leaving $π_{d}$ under-optimized, providing an theoretical explanation of why RL succeeds where SFT fails. We also empirically validate our theoretical predictions on arithmetic reasoning demonstrates that RL's superior generalization stems primarily from improved decision-making ($π_{d}$) rather than sampling capabilities, providing a first-principles mechanistic explanation for self-correction in thinking models.
- Abstract(参考訳): RLの後、大規模言語モデルでは自己回帰機能が出現し、マルチターンRLはSFTモデルよりも大幅に向上した。
しかし、統一最適化の目的がいかにして機能的に異なるソリューションを生成し、いつ修正するかを評価する能力をもたらすかというメカニズムは、いまだ不透明である。
この問題に対処するために、我々は2段階決定サンプリング(DS)仮説を通じて定式化された政策成分間の報酬勾配がどのように分散するかを特徴付けるために、グラディエント属性を導入し、検証のためにポリシーをサンプリングするために(π_{sample}$) π_{d}$) に分解する(π_{d}$)。
SFTとKLのペナルティは不均衡なグラディエント属性を示し、長さ重み付けは$π_{sample}$を制約する非対称正規化を生成し、$π_{d}$を過度に最適化し、RLがSFTが失敗する理由の理論的な説明を与える。
また、算術的推論に関する理論的予測を実証的に検証すると、RLの優れた一般化は主にサンプリング能力よりも優れた意思決定(π_{d}$)に起因していることが示され、思考モデルにおける自己補正の第一原理力学的説明を提供する。
関連論文リスト
- Learning to Reason in LLMs by Expectation Maximization [55.721496945401846]
我々は推論を潜在変数モデルとして定式化し、推論を学ぶための期待最大化目標を導出する。
この見解はEMと現代の報酬に基づく最適化を結びつけるものであり、正しい答えを正当化する有理性を生成するサンプリング分布を設計することの主な課題であることを示している。
論文 参考訳(メタデータ) (2025-12-23T08:56:49Z) - Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。
これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。
算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文 参考訳(メタデータ) (2025-08-04T00:58:56Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis [16.288866201806382]
モデルフリーなRLHFベストポリシー識別アルゴリズムである$mathsfBSAD$を、明示的な報酬モデル推論なしで開発する。
アルゴリズムは、人選好情報から直接、その最適方針を後方方向に識別する。
論文 参考訳(メタデータ) (2024-06-11T17:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。