論文の概要: An Asymptotic Theory of Chain-of-Thought in In-Context Learning
- arxiv url: http://arxiv.org/abs/2606.03217v1
- Date: Tue, 02 Jun 2026 06:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.804718
- Title: An Asymptotic Theory of Chain-of-Thought in In-Context Learning
- Title(参考訳): 文脈学習におけるチェーン・オブ・ワットの漸近的理論
- Authors: Kaito Takanami, Cengiz Pehlevan,
- Abstract要約: CoT推論(Chain-of-Thought reasoning)は、大規模言語モデルにおいて多段階推論を引き出すメカニズムとして広く用いられている。
線形回帰における文脈内重み予測のための理論的に解決可能なCoTモデルについて検討する。
本研究では,推定深度,事前学習データ量,文脈長の関数として,一般化誤差の正確な式を導出する。
- 参考スコア(独自算出の注目度): 34.69440744042684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) reasoning has become a widely used mechanism for eliciting multi-step reasoning in large language models by generating intermediate reasoning steps at inference time. Yet the scaling behavior of generalization with CoT depth remains poorly understood. To address this question, we study a theoretically solvable model of CoT for in-context weight prediction in linear regression, where test-time reasoning is represented as an iterative refinement of the weight-parameter estimate. Using tools from random matrix theory under high-dimensional asymptotics, we derive an exact formula for the generalization error as a function of reasoning depth, pretraining data amount, and context length. Our analysis reveals a sharp phase transition separating exponential and polynomial improvement, saturation, and overthinking, and characterizes how the optimal reasoning depth scales. We further show that deeper reasoning is most effective with sufficiently rich pretraining and in-context information, whereas limited pretraining or context makes longer reasoning prone to error amplification or saturation. We also validate these predictions through experiments on fully learned linear attention and softmax attention models. Our results provide a unified theoretical account of how test-time CoT depth affects generalization.
- Abstract(参考訳): CoT推論(Chain-of-Thought reasoning)は、推論時に中間的推論ステップを生成することで、大規模言語モデルにおいて多段階推論を引き出すメカニズムとして広く用いられている。
しかし、CoT深度による一般化のスケーリング挙動はよく理解されていない。
この問題に対処するために、線形回帰における文脈内重み予測のための理論的に解決可能なCoTモデルについて検討し、テスト時間推論を重みパラメータ推定の反復的洗練として表現する。
高次元漸近下でのランダム行列理論からのツールを用いて、推論深さ、事前学習データ量、文脈長さの関数として一般化誤差の正確な式を導出する。
解析の結果,指数的および多項式的改善,飽和,過剰思考を分離した急激な相転移が明らかとなり,最適推論深さがいかにスケールするかを特徴づけた。
さらに,事前学習や文脈の制限により,誤りの増幅や飽和が長くなるのに対して,十分な事前学習や文脈情報では,より深い推論が最も効果的であることを示す。
また、これらの予測は、完全学習線形注意モデルとソフトマックス注意モデルの実験を通して検証する。
この結果から,テスト時間CoT深度が一般化にどう影響するかの統一的な理論的考察が得られた。
関連論文リスト
- On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks [0.0]
凸共役双対性に基づく共役学習理論フレームワークを開発し,この学習性特性を特徴付ける。
我々は,ミニバッチ降下(SGD)による深層ニューラルネットワーク(DNN)のトレーニングが,経験的リスクのグローバルな最適化を実現することを実証した。
条件付き一般化エントロピー測度に基づく一般化誤差に関する決定論的および確率的境界を導出する。
論文 参考訳(メタデータ) (2026-02-18T04:26:55Z) - Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalization [53.89723291716722]
AI推論に関する重要な問題は、モデルが学習した推論パターンを外挿して、より長いチェーン・オブ・シークレット(CoT)で難しいタスクを解決できるかどうかである。
状態追跡問題の代数構造が、学習されたCoTの外挿の度合いをいかに支配するかを数学的に証明する。
定数深度変換器はCoTで$mathsfNC1$-complete問題を確実に学習することを保証する。
論文 参考訳(メタデータ) (2025-11-10T18:40:24Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Do Larger Language Models Generalize Better? A Scaling Law for Implicit Reasoning at Pretraining Time [73.22651918134808]
この研究は、モデルサイズのスケーリングによる直感的効果を示し、言語モデル(LM)におけるスケーリングと推論の関係に関する新たな洞察を提供する。
我々は,実世界の大規模知識グラフの構造と分布を再現する合成暗黙のマルチホップ推論環境において,ゼロからLMを事前学習する。
次に、実世界の事前学習における暗黙的推論の単純化とみなすことができるマルチホップ推論を必要とする、グラフの欠落したエッジを完遂するLMの能力を評価する。
論文 参考訳(メタデータ) (2025-04-04T17:57:22Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - The $\varphi$ Curve: The Shape of Generalization through the Lens of Norm-based Capacity Control [23.293525050286224]
我々は,ノルムに基づくキャパシティ測定について検討し,ランダムな特徴量に基づく推定器について検討する。
推定器のノルムがどのように集中し、どのように関連するテストエラーを管理するかを正確に評価する。
これは、より古典的なU字型の振る舞いが、サイズよりもモデルノルムに基づく適切なキャパシティ測度を考慮して復元されることを確認する。
論文 参考訳(メタデータ) (2025-02-03T18:10:40Z) - Understanding Forgetting in Continual Learning with Linear Regression [21.8755265936716]
連続的な学習は、複数のタスクを逐次学習することに焦点を当てており、近年大きな注目を集めている。
線形回帰モデルにおいて, 線形回帰モデルをグラディエント・ディッセンス(Gradient Descent)を用いて, 忘れることの一般的な理論的解析を行う。
十分なデータサイズを考慮に入れれば、集団データ共分散行列の固有値が大きいタスクが後で訓練されるようなシーケンス内のタスクの配置は、忘れが増す傾向にあることを実証する。
論文 参考訳(メタデータ) (2024-05-27T18:33:37Z) - Beyond variance reduction: Understanding the true impact of baselines on
policy optimization [24.09670734037029]
学習力学は損失関数の曲率と勾配推定の雑音によって制御されることを示す。
我々は,少なくとも包帯問題では,曲率や雑音が学習力学を説明するのに十分でないことを示す理論的結果を示す。
論文 参考訳(メタデータ) (2020-08-31T17:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。