論文の概要: Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning
- arxiv url: http://arxiv.org/abs/2511.07368v1
- Date: Mon, 10 Nov 2025 18:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.409578
- Title: Consistency Is Not Always Correct: Towards Understanding the Role of Exploration in Post-Training Reasoning
- Title(参考訳): 一貫性は常に正しいとは限らない:ポストトライニング推論における探索の役割を理解するために
- Authors: Dake Bu, Wei Huang, Andi Han, Atsushi Nitanda, Bo Xue, Qingfu Zhang, Hau-San Wong, Taiji Suzuki,
- Abstract要約: 基礎モデルは幅広い知識を示すが、タスク固有の推論は限定的である。
RLVRと推論スケーリングは、RLVRや推論スケーリングのようなトレーニング後の戦略を動機付けます。
RLVRはスキューズ効果を誘発し,推論エントロピーを減少させ,正しい経路を忘れることを示した。
- 参考スコア(独自算出の注目度): 75.79451512757844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models exhibit broad knowledge but limited task-specific reasoning, motivating post-training strategies such as RLVR and inference scaling with outcome or process reward models (ORM/PRM). While recent work highlights the role of exploration and entropy stability in improving pass@K, empirical evidence points to a paradox: RLVR and ORM/PRM typically reinforce existing tree-like reasoning paths rather than expanding the reasoning scope, raising the question of why exploration helps at all if no new patterns emerge. To reconcile this paradox, we adopt the perspective of Kim et al. (2025), viewing easy (e.g., simplifying a fraction) versus hard (e.g., discovering a symmetry) reasoning steps as low- versus high-probability Markov transitions, and formalize post-training dynamics through Multi-task Tree-structured Markov Chains (TMC). In this tractable model, pretraining corresponds to tree expansion, while post-training corresponds to chain-of-thought reweighting. We show that several phenomena recently observed in empirical studies arise naturally in this setting: (1) RLVR induces a squeezing effect, reducing reasoning entropy and forgetting some correct paths; (2) population rewards of ORM/PRM encourage consistency rather than accuracy, thereby favoring common patterns; and (3) certain rare, high-uncertainty reasoning paths by the base model are responsible for solving hard problem instances. Together, these explain why exploration -- even when confined to the base model's reasoning scope -- remains essential: it preserves access to rare but crucial reasoning traces needed for difficult cases, which are squeezed out by RLVR or unfavored by inference scaling. Building on this, we further show that exploration strategies such as rejecting easy instances and KL regularization help preserve rare reasoning traces. Empirical simulations corroborate our theoretical results.
- Abstract(参考訳): 基礎モデルには幅広い知識があるが、タスク固有の推論が限られており、RLVRのようなポストトレーニング戦略や、結果やプロセス報酬モデル(ORM/PRM)による推論スケーリングを動機付けている。
RLVRとORM/PRMは一般的に、推論の範囲を広げるのではなく、既存のツリーのような推論パスを強化します。
このパラドックスを整理するために、Kim et al (2025) の視点を採用し、簡単(eg, 分数)対ハード(eg, 対称性の発見)の推論ステップを低確率と高確率のマルコフ遷移とし、マルチタスク木構造マルコフ連鎖 (TMC) を通して後学習ダイナミクスを定式化する。
このトラクタブルモデルでは、プレトレーニングは木の伸長に対応し、ポストトレーニングはチェーン・オブ・シント・リウェイトに対応する。
実験研究で最近観察されたいくつかの現象は,(1)RLVRがスキューズ効果を誘発し,推論エントロピーを低減し,いくつかの正しい経路を忘れること,(2)ORM/PRMの集団報酬は,精度よりも一貫性を促進し,共通のパターンを優先すること,(3)ベースモデルによる特定の稀で高い不確実な推論経路が,難題の解決に寄与すること,である。
調査がベースモデルの推論範囲に制限されているとしても、これらは依然として不可欠である。RLVRや推論スケーリングの影響を受けない、難しいケースに必要な、まれだが重要な推論トレースへのアクセスを保護します。
これに基づいて、簡単なインスタンスの拒絶やKL正規化といった探索戦略が希少な推論トレースの保存に役立つことを示す。
実験シミュレーションは我々の理論結果を裏付ける。
関連論文リスト
- RAVR: Reference-Answer-guided Variational Reasoning for Large Language Models [21.671577399379885]
本稿では,質問のみの推論のための変分サロゲートとして応答条件推論を利用する,エンドツーエンドのフレームワークであるRAVRを紹介する。
RAVRはためらいを減らし、結論の統合を強化し、推論における問題固有の戦略を促進する。
論文 参考訳(メタデータ) (2025-10-29T06:18:37Z) - Reasoning or Retrieval? A Study of Answer Attribution on Large Reasoning Models [15.797612515648412]
大きな推論モデル (LRMs) は、Chain-of-Thought (CoT) 推論を通じて複雑な問題を解く際、前例のない能力を示す。
最近の研究では、彼らの最後の答えは、しばしば彼ら自身の推論の痕跡と矛盾していることが明らかになっている。
この矛盾は、CoT推論とメモリ検索という2つの競合メカニズムに起因していると仮定する。
本稿では,メモリアンラーニングと強化学習を統合したファインチューニングフレームワークFARLを紹介する。
論文 参考訳(メタデータ) (2025-09-29T01:13:33Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Reasoning with Exploration: An Entropy Perspective on Reinforcement Learning for LLMs [112.40801692473723]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z) - A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。
懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。
この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-03-27T15:36:30Z) - Causal Representation Learning Made Identifiable by Grouping of Observational Variables [8.157856010838382]
因果表現学習(Causal Representation Learning)は、データ駆動型で隠れた機能の因果モデルを学ぶことを目的としている。
ここでは、新規で弱い制約に基づく識別可能性を示す。
また,モデルに整合した新たな自己教師付き推定フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T10:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。