Fugu-MT 論文翻訳(概要): Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis

論文の概要: Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis

arxiv url: http://arxiv.org/abs/2410.02167v2
Date: Sat, 5 Oct 2024 23:13:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 08:15:54.239109
Title: Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis
Title（参考訳）: 階層型推論のための非線形変圧器の訓練:理論的一般化解析
Authors: Hongkang Li, Meng Wang, Songtao Lu, Xiaodong Cui, Pin-Yu Chen,
Abstract要約: チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。 CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
参考スコア（独自算出の注目度）: 82.51626700527837
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chain-of-Thought (CoT) is an efficient prompting method that enables the reasoning ability of large language models by augmenting the query using multiple examples with multiple intermediate steps. Despite the empirical success, the theoretical understanding of how to train a Transformer to achieve the CoT ability remains less explored. This is primarily due to the technical challenges involved in analyzing the nonconvex optimization on nonlinear attention models. To the best of our knowledge, this work provides the first theoretical study of training Transformers with nonlinear attention to obtain the CoT generalization capability so that the resulting model can inference on unseen tasks when the input is augmented by examples of the new task. We first quantify the required training samples and iterations to train a Transformer model towards CoT ability. We then prove the success of its CoT generalization on unseen tasks with distribution-shifted testing data. Moreover, we theoretically characterize the conditions for an accurate reasoning output by CoT even when the provided reasoning examples contain noises and are not always accurate. In contrast, in-context learning (ICL), which can be viewed as one-step CoT without intermediate steps, may fail to provide an accurate output when CoT does. These theoretical findings are justified through experiments.
Abstract（参考訳）: CoT(Chain-of-Thought)は、複数の中間ステップを持つ複数の例を用いてクエリを増強することにより、大規模言語モデルの推論能力を高める効率的なプロンプト手法である。実証的な成功にもかかわらず、CoT能力を達成するためのトランスフォーマーの訓練方法に関する理論的理解はいまだに研究されていない。これは主に非凸最適化を非線形アテンションモデルで解析する技術的な問題に起因する。我々の知る限り、本研究は、入力が新しいタスクの例によって拡張されたときに、結果として得られるモデルが見えないタスクを推測できるように、非線型注意のトレーニングトランスフォーマーに関する最初の理論的研究を提供する。まず、必要なトレーニングサンプルとイテレーションを定量化し、TransformerモデルをCoT能力に向けてトレーニングします。次に、分布シフトテストデータを用いた未確認タスクにおけるCoT一般化の成功を証明した。さらに,提案した推論例にノイズがあり,必ずしも正確ではない場合でも,CoTによる正確な推論出力の条件を理論的に特徴づける。対照的に、中間ステップなしで一段階のCoTと見なすことができるインコンテキスト学習(ICL)は、CoTが正しい出力を提供することができない。これらの理論的な発見は実験によって正当化される。

関連論文リスト

From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers [67.02076505996284]
本研究では, 事前学習したデータ分布の選択が, 浅層変圧器を一方の行動に向ける方法について検討する。その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
論文参考訳（メタデータ） (2025-12-21T08:10:26Z)
Mixture-of-Transformers Learn Faster: A Theoretical Study on Classification Problems [59.94955550958074]
本研究では,各変圧器ブロックが連続的に訓練されたゲーティングネットワークによって制御される専門家として機能する,トラクタブルな理論的枠組みについて検討する。専門家の専門化は、勾配の衝突を減らし、各サブタスクを強く凸させることを示す。トレーニングによって予測損失が$O(log(epsilon-1)$のステップでゼロに近づき、単一変圧器の$O(epsilon-1)$のレートよりも大幅に向上することが証明された。
論文参考訳（メタデータ） (2025-10-30T21:07:36Z)
The Kinetics of Reasoning: How Chain-of-Thought Shapes Learning in Transformers? [25.29458951592086]
チェーン・オブ・シント(CoT)の監督はトランスフォーマーの性能を大幅に向上させることができる。シンボリック推論タスクにおけるトランスフォーマーの事前学習により、これらの学習ダイナミクスをグラクキングのレンズを通して検討する。
論文参考訳（メタデータ） (2025-10-28T20:14:26Z)
Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought [56.71873693264532]
連続CoTのD$ステップを持つ2層トランスが有向グラフ到達可能性問題を解くことができることを証明した。我々の構成では、各連続思考ベクトルは複数の探索フロンティアを同時に符号化する重ね合わせ状態である。
論文参考訳（メタデータ） (2025-05-18T18:36:53Z)
When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文参考訳（メタデータ） (2025-04-15T08:04:39Z)
Transformers Learn to Implement Multi-step Gradient Descent with Chain of Thought [46.71030329872635]
Chain of Thought (CoT) のプロンプトにより,大規模言語モデル (LLM) の性能が大幅に向上することが示されている。線形回帰のための文脈内重み予測タスクにおいて,CoT目標に対する変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2025-02-28T16:40:38Z)
Beyond In-Distribution Success: Scaling Curves of CoT Granularity for Language Model Generalization [35.16980045900664]
変圧器に基づく言語モデル(LM)の展開において、分散シフト下における新しい複合タスクへの一般化が重要である本研究は、OODの一般化を促進する手段として、Chain-of-Thought (CoT)推論を考察する。
論文参考訳（メタデータ） (2025-02-25T15:04:17Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration [41.88275731297211]
ステップワイズICLと比較して、前段からの推論が統合された場合、トランスフォーマーはより優れた誤り訂正能力とより正確な予測が得られることを示す。実演において,正しい推論経路と誤った推論経路の両方を組み込むことにより,CoTの改善を提案する。
論文参考訳（メタデータ） (2024-10-21T22:07:20Z)
Transformers Provably Solve Parity Efficiently with Chain of Thought [40.78854925996]
この研究は、複雑な問題を解決するためのトレーニングトランスの最初の理論的解析を提供する。我々は、基本的な$k$-parity問題を解くために、1層トランスを訓練することを検討する。
論文参考訳（メタデータ） (2024-10-11T08:55:17Z)
From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency [17.612497960364916]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の推論性能を著しく向上させる代表電力が十分である場合でも,CoTは試料効率を大幅に向上できることを示す。 CoTは入力トークン間のスパース依存関係を導入して学習プロセスを単純化し、スパースかつ解釈可能な注意を喚起することを示す。
論文参考訳（メタデータ） (2024-10-07T19:45:09Z)
Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文参考訳（メタデータ） (2024-09-25T20:22:06Z)
Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文参考訳（メタデータ） (2024-08-25T04:07:18Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文参考訳（メタデータ） (2024-02-23T21:07:20Z)
A Theoretical Understanding of Shallow Vision Transformers: Learning, Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文参考訳（メタデータ） (2023-02-12T22:12:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。