論文の概要: Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis
- arxiv url: http://arxiv.org/abs/2410.02167v2
- Date: Sat, 05 Oct 2024 23:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:43:46.488254
- Title: Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis
- Title(参考訳): 階層型推論のための非線形変圧器の訓練:理論的一般化解析
- Authors: Hongkang Li, Meng Wang, Songtao Lu, Xiaodong Cui, Pin-Yu Chen,
- Abstract要約: チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
- 参考スコア(独自算出の注目度): 82.51626700527837
- License:
- Abstract: Chain-of-Thought (CoT) is an efficient prompting method that enables the reasoning ability of large language models by augmenting the query using multiple examples with multiple intermediate steps. Despite the empirical success, the theoretical understanding of how to train a Transformer to achieve the CoT ability remains less explored. This is primarily due to the technical challenges involved in analyzing the nonconvex optimization on nonlinear attention models. To the best of our knowledge, this work provides the first theoretical study of training Transformers with nonlinear attention to obtain the CoT generalization capability so that the resulting model can inference on unseen tasks when the input is augmented by examples of the new task. We first quantify the required training samples and iterations to train a Transformer model towards CoT ability. We then prove the success of its CoT generalization on unseen tasks with distribution-shifted testing data. Moreover, we theoretically characterize the conditions for an accurate reasoning output by CoT even when the provided reasoning examples contain noises and are not always accurate. In contrast, in-context learning (ICL), which can be viewed as one-step CoT without intermediate steps, may fail to provide an accurate output when CoT does. These theoretical findings are justified through experiments.
- Abstract(参考訳): CoT(Chain-of-Thought)は、複数の中間ステップを持つ複数の例を用いてクエリを増強することにより、大規模言語モデルの推論能力を高める効率的なプロンプト手法である。
実証的な成功にもかかわらず、CoT能力を達成するためのトランスフォーマーの訓練方法に関する理論的理解はいまだに研究されていない。
これは主に非凸最適化を非線形アテンションモデルで解析する技術的な問題に起因する。
我々の知る限り、本研究は、入力が新しいタスクの例によって拡張されたときに、結果として得られるモデルが見えないタスクを推測できるように、非線型注意のトレーニングトランスフォーマーに関する最初の理論的研究を提供する。
まず、必要なトレーニングサンプルとイテレーションを定量化し、TransformerモデルをCoT能力に向けてトレーニングします。
次に、分布シフトテストデータを用いた未確認タスクにおけるCoT一般化の成功を証明した。
さらに,提案した推論例にノイズがあり,必ずしも正確ではない場合でも,CoTによる正確な推論出力の条件を理論的に特徴づける。
対照的に、中間ステップなしで一段階のCoTと見なすことができるインコンテキスト学習(ICL)は、CoTが正しい出力を提供することができない。
これらの理論的な発見は実験によって正当化される。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification [7.869708570399577]
条件付き期待値 $mathbbE[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双目的予測タスクを考える。
理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。
論文 参考訳(メタデータ) (2024-05-24T00:08:55Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Implicit Compressibility of Overparametrized Neural Networks Trained
with Heavy-Tailed SGD [31.61477313262589]
勾配降下(SGD)を訓練した一層ニューラルネットワークの検討
加法的な重み付きノイズを各繰り返しに注入すると、任意の圧縮率に対して、アルゴリズムの出力が高い確率で圧縮可能であるように過度なパラメータ化のレベルが存在することを示す。
論文 参考訳(メタデータ) (2023-06-13T20:37:02Z) - Towards Revealing the Mystery behind Chain of Thought: A Theoretical
Perspective [39.47116013338394]
CoT(Chain-of-Thought prompting)は,大規模言語モデル(LLM)の性能を劇的に向上させる
我々は、CoTが動的プログラミング(Dynamic Programming)として知られる一般的な意思決定問題に対処できることを示します。
論文 参考訳(メタデータ) (2023-05-24T17:59:21Z) - A Theoretical Understanding of Shallow Vision Transformers: Learning,
Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。
しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。
本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文 参考訳(メタデータ) (2023-02-12T22:12:35Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。