論文の概要: Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data
- arxiv url: http://arxiv.org/abs/2601.15158v1
- Date: Wed, 21 Jan 2026 16:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.457023
- Title: Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data
- Title(参考訳): アウトカムベースのRLはおそらくトランスフォーマーを推論に導くが、正しいデータしか持たない
- Authors: Yuval Ran-Milo, Yotam Alexander, Shahar Mendel, Nadav Cohen,
- Abstract要約: 本研究では,スパース報酬が勾配降下を誘導し,系統的推論を発見するメカニズムについて検討する。
最終回答の正確性のみを訓練しているにもかかわらず、勾配流はモデルを構造的、解釈可能なアルゴリズムに収束させる。
- 参考スコア(独自算出の注目度): 4.344634631420729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers trained via Reinforcement Learning (RL) with outcome-based supervision can spontaneously develop the ability to generate intermediate reasoning steps (Chain-of-Thought). Yet the mechanism by which sparse rewards drive gradient descent to discover such systematic reasoning remains poorly understood. We address this by analyzing the gradient flow dynamics of single-layer Transformers on a synthetic graph traversal task that cannot be solved without Chain-of-Thought (CoT) but admits a simple iterative solution. We prove that despite training solely on final-answer correctness, gradient flow drives the model to converge to a structured, interpretable algorithm that iteratively traverses the graph vertex-by-vertex. We characterize the distributional properties required for this emergence, identifying the critical role of "simple examples": instances requiring fewer reasoning steps. When the training distribution places sufficient mass on these simpler instances, the model learns a generalizable traversal strategy that extrapolates to longer chains; when this mass vanishes, gradient-based learning becomes infeasible. We corroborate our theoretical results through experiments on synthetic data and with real-world language models on mathematical reasoning tasks, validating that our theoretical findings carry over to practical settings.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)を通じてトレーニングされたトランスフォーマーは、結果に基づく監督によって、中間的推論ステップ(Chain-of-Thought)を生成する能力を自発的に開発することができる。
しかし、スパース報酬のメカニズムは、そのような体系的な推論を発見するための勾配降下を誘導する。
この問題に対処するため, 単層トランスフォーマーの勾配流のダイナミクスを, CoT (Chain-of-Thought) なしでは解けない合成グラフトラバーサルタスクで解析するが, 単純な反復解は認めない。
最終回答の正確性のみを訓練しているにもかかわらず、勾配流はモデルを収束させ、グラフ頂点を頂点ごとに反復的に横切る構造的解釈可能なアルゴリズムに収束させる。
この出現に必要な分散特性を特徴付け、"単純な例"の重要な役割を特定します。
トレーニング分布がこれらの単純な例に十分な質量を配置すると、モデルはより長い鎖に外挿する一般化可能なトラバース戦略を学習する。
本研究は, 理論的結果が実用的条件まで続くことを検証するために, 合成データの実験と, 数学的推論タスクに関する実世界の言語モデルを用いて, 理論的結果の相関関係を検証した。
関連論文リスト
- Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Cross-Entropy Is All You Need To Invert the Data Generating Process [29.94396019742267]
経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
論文 参考訳(メタデータ) (2024-10-29T09:03:57Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Towards an Understanding of Stepwise Inference in Transformers: A
Synthetic Graph Navigation Model [19.826983068662106]
本稿では,ステップワイズ推論が一般的に有用である問題の多段階の性質を具現化した,自動回帰変換器モデルを提案する。
単純さにもかかわらず、私たちは経験的に、大規模に観察されたいくつかの現象を再現し分析することができることに気付きました。
論文 参考訳(メタデータ) (2024-02-12T16:25:47Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。