論文の概要: Beyond What Seems Necessary: Hidden Gains from Scaling Training-Time Reasoning Length under Outcome Supervision
- arxiv url: http://arxiv.org/abs/2602.00927v1
- Date: Sat, 31 Jan 2026 22:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.469218
- Title: Beyond What Seems Necessary: Hidden Gains from Scaling Training-Time Reasoning Length under Outcome Supervision
- Title(参考訳): 必要以上のもの - アウトカム監督下のトレーニング時間推論長のスケールアップによる隠れた増加
- Authors: Yihao Xue, Allan Zhang, Jianhao Huang, Amit Sahai, Baharan Mirzasoleiman,
- Abstract要約: LLMの思考と推論の訓練は、最先端のモデルを構築する上で重要な要素となっている。
近年の取り組みは、長いCoTを誘発するRL微調整や、アーキテクチャの反復による遅延推論のスケーリングなど、さまざまな方法でこれを追求している。
結果のみの監督の下では、トレーニング時間推論の長さが増加するにつれて、アウト・オブ・ディストリビューション(OOD)のパフォーマンスが向上し続ける。
- 参考スコア(独自算出の注目度): 30.75583081407994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training LLMs to think and reason for longer has become a key ingredient in building state-of-the-art models that can solve complex problems previously out of reach. Recent efforts pursue this in different ways, such as RL fine-tuning to elicit long CoT or scaling latent reasoning through architectural recurrence. This makes reasoning length an important scaling knob. In this work, we identify a novel phenomenon (both theoretically and experimentally): under outcome-only supervision, out-of-distribution (OOD) performance can continue improving as training-time reasoning length (e.g., the token budget in RL, or the loop count in looped Transformers) increases, even after in-distribution (ID) performance has saturated. This suggests that robustness may require a larger budget than ID validation alone would indicate. We provide theoretical explanations via two mechanisms: (i) self-iteration can induce a stronger inductive bias in the hypothesis class, reshaping ID-optimal solutions in ways that improve OOD generalization; and (ii) when shortcut solutions that work for ID samples but not for OOD samples persist in the hypothesis class, regularization can reduce the learned solution's reliance on these shortcuts as the number of self-iterations increases. We complement the theory with empirical evidence from two realizations of scaling training-time reasoning length: increasing the number of loops in looped Transformers on a synthetic task, and increasing token budgets during RL fine-tuning of LLMs on mathematical reasoning.
- Abstract(参考訳): LLMの思考と推論の訓練は、これまで手の届かない複雑な問題を解くことのできる最先端のモデルを構築する上で、重要な要素となっている。
近年の取り組みは、長いCoTを誘発するRL微調整や、アーキテクチャの反復による遅延推論のスケーリングなど、さまざまな方法でこれを追求している。
これにより、推論長が重要なスケーリングノブとなる。
本研究は,新たな現象(理論的にも実験的にも)を同定する。結果のみの監視の下では,非分配(ID)性能が飽和した場合でも,トレーニング時間推論長(例えば,RLのトークン予算,ループ変換器のループ数)が増加するにつれて,OODの性能は向上し続ける。
これは、堅牢性はID検証だけで示されるよりも大きな予算を必要とする可能性があることを示唆している。
我々は2つのメカニズムを通して理論的説明を行う。
i)自己イテレーションは、仮説クラスにおいてより強い帰納バイアスを誘発し、OOD一般化を改善する方法でID-最適解を再構成する。
(II) 仮説クラスでは, ID サンプルに作用するが OOD サンプルに作用しないショートカット解が持続する場合, 正規化は自己イテレーションの数が増えるにつれて, 学習した解のショートカットへの依存を減少させる。
本稿では,合成タスクにおけるループ変換器のループ数の増加と,数学的推論におけるLLMの微調整におけるトークン予算の増大という,学習時間推論長のスケーリングという2つの実現の実証的証拠を補足する。
関連論文リスト
- Anti-Length Shift: Dynamic Outlier Truncation for Training Efficient Reasoning Models [29.56923793047279]
本稿では,冗長トークンを選択的に抑制する訓練時間介入であるDynamic Outlier Truncation(DOT)を紹介する。
DOTは、完全に正しいロールアウトグループ内での応答長の極端のみを目標とし、長い水平推論能力を保っている。
提案手法は,初期ポリシーに比べて精度を高くしながら,推論トークンの使用率を78%削減する。
論文 参考訳(メタデータ) (2026-01-07T14:31:07Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought [64.43689151961054]
有向グラフ到達性問題に対する簡易な2層変圧器のトレーニング力学を理論的に解析する。
分析の結果,連続的思考を用いたトレーニングでは,まずインデックスマッチングロジットが増加し,その後は軽度な仮定の下で拘束されることがわかった。
論文 参考訳(メタデータ) (2025-09-27T15:23:46Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Demystifying Long Chain-of-Thought Reasoning in LLMs [46.352406501403465]
ロングチェーン・オブ・シント(CoT)は、バックトラックやエラー修正のような戦略を可能にする。
強化学習(Reinforcement Learning, RL)は、これらの能力を開発する上で重要な方法である。
モデルが長いCoT軌道を生成できる重要な要素を同定する。
論文 参考訳(メタデータ) (2025-02-05T17:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。