論文の概要: Transformers Provably Solve Parity Efficiently with Chain of Thought
- arxiv url: http://arxiv.org/abs/2410.08633v1
- Date: Fri, 11 Oct 2024 08:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 22:54:46.324246
- Title: Transformers Provably Solve Parity Efficiently with Chain of Thought
- Title(参考訳): 変圧器は思考の連鎖と効率よくパリティを解ける
- Authors: Juno Kim, Taiji Suzuki,
- Abstract要約: この研究は、複雑な問題を解決するためのトレーニングトランスの最初の理論的解析を提供する。
我々は、基本的な$k$-parity問題を解くために、1層トランスを訓練することを検討する。
- 参考スコア(独自算出の注目度): 40.78854925996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work provides the first theoretical analysis of training transformers to solve complex problems by recursively generating intermediate states, analogous to fine-tuning for chain-of-thought (CoT) reasoning. We consider training a one-layer transformer to solve the fundamental $k$-parity problem, extending the work on RNNs by Wies et al. (2023). We establish three key results: (1) any finite-precision gradient-based algorithm, without intermediate supervision, requires substantial iterations to solve parity with finite samples. (2) In contrast, when intermediate parities are incorporated into the loss function, our model can learn parity in one gradient update when aided by \emph{teacher forcing}, where ground-truth labels of the reasoning chain are provided at each generation step. (3) Even without teacher forcing, where the model must generate CoT chains end-to-end, parity can be learned efficiently if augmented data is employed to internally verify the soundness of intermediate steps. These results rigorously show that task decomposition and stepwise reasoning naturally arise from optimizing transformers with CoT; moreover, self-consistency checking can improve reasoning ability, aligning with empirical studies of CoT.
- Abstract(参考訳): この研究は、チェーン・オブ・シークレット(CoT)推論のための微調整に類似した中間状態を再帰的に生成することで、複雑な問題を解決するためのトレーニングトランスフォーマーの最初の理論的解析を提供する。
Wees et al (2023) による RNN の作業を拡張し, 基本的な$k$-parity 問題を解くために, 1層トランスフォーマーを訓練することを検討する。
1)任意の有限精度勾配に基づくアルゴリズムは、中間的な監督なしに、有限サンプルでパリティを解くためにかなりの反復を必要とする。
2) 中間パリティを損失関数に組み込んだ場合, モデルでは, それぞれの生成ステップにおいて, 推論チェーンの基底構造ラベルを付与した \emph{teacher forcing} によって支援された場合, 一つの勾配更新でパリティを学習することができる。
(3)教師の強制がなければ,モデルがCoT鎖をエンドツーエンドに生成しなければならない場合においても,中間ステップの音質を内部的に検証するために拡張データを用いる場合,パリティを効率的に学習することができる。
これらの結果から,CoTを用いた変圧器の最適化から,タスクの分解や段階的推論が自然に発生すること,さらに,自己整合性検査がCoTの実証研究と整合して推論能力を向上させることが示唆された。
関連論文リスト
- A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration [41.88275731297211]
ステップワイズICLと比較して、前段からの推論が統合された場合、トランスフォーマーはより優れた誤り訂正能力とより正確な予測が得られることを示す。
実演において,正しい推論経路と誤った推論経路の両方を組み込むことにより,CoTの改善を提案する。
論文 参考訳(メタデータ) (2024-10-21T22:07:20Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency [17.612497960364916]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の推論性能を著しく向上させる
代表電力が十分である場合でも,CoTは試料効率を大幅に向上できることを示す。
CoTは入力トークン間のスパース依存関係を導入して学習プロセスを単純化し、スパースかつ解釈可能な注意を喚起することを示す。
論文 参考訳(メタデータ) (2024-10-07T19:45:09Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Transformer Meets Boundary Value Inverse Problems [4.165221477234755]
変圧器を用いた深部直接サンプリング法は境界値逆問題のクラスを解くために提案される。
慎重に設計されたデータと再構成された画像の間に学習した逆演算子を評価することにより、リアルタイムな再構成を実現する。
論文 参考訳(メタデータ) (2022-09-29T17:45:25Z) - Learning Iterative Robust Transformation Synchronization [71.73273007900717]
グラフニューラルネットワーク(GNN)を用いて変換同期を学習することを提案する。
本研究では、ロバストな損失関数のハンドクラフトを回避するとともに、グラフニューラルネットワーク(GNN)を用いて変換同期を学習することを提案する。
論文 参考訳(メタデータ) (2021-11-01T07:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。