論文の概要: Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought
- arxiv url: http://arxiv.org/abs/2502.21212v1
- Date: Fri, 28 Feb 2025 16:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:20.301036
- Title: Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought
- Title(参考訳): トランスフォーマーは、思考の連鎖を伴う多段階のグラディエントDescentを実装することを学習する
- Authors: Jianhao Huang, Zixuan Wang, Jason D. Lee,
- Abstract要約: Chain of Thought (CoT) のプロンプトにより,大規模言語モデル (LLM) の性能が大幅に向上することが示されている。
線形回帰のための文脈内重み予測タスクにおいて,CoT目標に対する変圧器のトレーニングダイナミクスについて検討する。
- 参考スコア(独自算出の注目度): 46.71030329872635
- License:
- Abstract: Chain of Thought (CoT) prompting has been shown to significantly improve the performance of large language models (LLMs), particularly in arithmetic and reasoning tasks, by instructing the model to produce intermediate reasoning steps. Despite the remarkable empirical success of CoT and its theoretical advantages in enhancing expressivity, the mechanisms underlying CoT training remain largely unexplored. In this paper, we study the training dynamics of transformers over a CoT objective on an in-context weight prediction task for linear regression. We prove that while a one-layer linear transformer without CoT can only implement a single step of gradient descent (GD) and fails to recover the ground-truth weight vector, a transformer with CoT prompting can learn to perform multi-step GD autoregressively, achieving near-exact recovery. Furthermore, we show that the trained transformer effectively generalizes on the unseen data. With our technique, we also show that looped transformers significantly improve final performance compared to transformers without looping in the in-context learning of linear regression. Empirically, we demonstrate that CoT prompting yields substantial performance improvements.
- Abstract(参考訳): 思考の連鎖(CoT)プロンプトは、特に算術や推論タスクにおいて、中間的推論ステップを生成するようモデルに指示することで、大きな言語モデル(LLM)の性能を著しく改善することが示されている。
CoTの顕著な経験的成功と、その発現性向上における理論的優位性にもかかわらず、CoTトレーニングの基礎となるメカニズムはほとんど解明されていない。
本稿では,線形回帰のための文脈内重み予測タスクにおいて,CoT目標に対する変圧器のトレーニングダイナミクスについて検討する。
我々は,CoTを含まない一層線形変圧器が勾配勾配降下(GD)の一段階のみを実装でき,また,地絡み重みベクトルの回復に失敗するのに対し,CoTプロンプト付き変圧器は多段GDを自己回帰的に実行し,ほぼ完全に回復できることを示す。
さらに、トレーニングされた変換器は、目に見えないデータに基づいて効果的に一般化することを示す。
また,線形回帰の文脈内学習においてループのない変換器と比較して,ループ変換器は最終性能を著しく向上することを示した。
実証的に、CoTのプロンプトによってパフォーマンスが大幅に向上することを示す。
関連論文リスト
- Enhancing Auto-regressive Chain-of-Thought through Loop-Aligned Reasoning [47.06427150903487]
CoT(Chain-of-Thought)プロンプトは、言語モデルの推論能力を高めるための強力なテクニックとして登場した。
ループ変換器は目覚ましい長さの一般化能力を有するが、その限定的な一般化と適応性により、自己回帰解の代替として機能することができない。
ループ変換器の強度をよりよく活用するためのRELAYを提案する。
論文 参考訳(メタデータ) (2025-02-12T15:17:04Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Transformers Handle Endogeneity in In-Context Linear Regression [34.458004744956334]
インストゥルメンタル変数(IV)を用いて内在性を効果的に扱うメカニズムをトランスフォーマーが本質的に持っていることを示す。
提案手法では,事前学習損失の最小化が最小限の余剰損失を達成できることを示す理論的保証を提供する。
論文 参考訳(メタデータ) (2024-10-02T06:21:04Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。