論文の概要: A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration
- arxiv url: http://arxiv.org/abs/2410.16540v1
- Date: Mon, 21 Oct 2024 22:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:58.307127
- Title: A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration
- Title(参考訳): チェーン・オブ・ワットの理論的理解:コヒーレント推論と誤り認識の実証
- Authors: Yingqian Cui, Pengfei He, Xianfeng Tang, Qi He, Chen Luo, Jiliang Tang, Yue Xing,
- Abstract要約: ステップワイズICLと比較して、前段からの推論が統合された場合、トランスフォーマーはより優れた誤り訂正能力とより正確な予測が得られることを示す。
実演において,正しい推論経路と誤った推論経路の両方を組み込むことにより,CoTの改善を提案する。
- 参考スコア(独自算出の注目度): 41.88275731297211
- License:
- Abstract: Few-shot Chain-of-Thought (CoT) prompting has demonstrated strong performance in improving the reasoning capabilities of large language models (LLMs). While theoretical investigations have been conducted to understand CoT, the underlying transformer used in these studies isolates the CoT reasoning process into separated in-context learning steps (Stepwise ICL). In this work, we theoretically show that, compared to Stepwise ICL, the transformer gains better error correction ability and more accurate predictions if the reasoning from earlier steps (Coherent CoT) is integrated. Given that this coherent reasoning changes the behavior of the transformer, we further investigate the sensitivity of the transformer with Coherent CoT when the demonstration examples are corrupted at the inference stage. Our theoretical results indicate that the transformer is more sensitive to errors in intermediate reasoning steps than the final outcome. Building upon this observation, we propose an improvement on CoT by incorporating both correct and incorrect reasoning paths in the demonstration. Our experiments validate the effectiveness of the proposed approach.
- Abstract(参考訳): CoT(Chain-of-Thought)のプロンプトは,大規模言語モデル(LLM)の推論能力の向上に大きく貢献している。
理論的研究はCoTを理解するために行われているが、これらの研究で使用される基盤となるトランスフォーマーは、CoT推論プロセスをコンテキスト内学習段階(Stepwise ICL)に分離する。
本研究では,前段(Coherent CoT)からの推論が統合された場合,ステップワイズICLと比較して,トランスフォーマーはより優れた誤り訂正能力とより正確な予測が得られることを示す。
このコヒーレント推論が変圧器の挙動を変えることを考慮し、実演例が推論段階で破損した場合、さらにコヒーレントCoTによる変圧器の感度について検討する。
解析結果から, 変圧器は最終結果よりも中間推論段階の誤差に敏感であることが示唆された。
本研究は,実証実験において,正しい推論経路と誤った推論経路の両方を組み込むことにより,CoTの改善を提案する。
提案手法の有効性を実験により検証した。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Transformers Provably Solve Parity Efficiently with Chain of Thought [40.78854925996]
この研究は、複雑な問題を解決するためのトレーニングトランスの最初の理論的解析を提供する。
我々は、基本的な$k$-parity問題を解くために、1層トランスを訓練することを検討する。
論文 参考訳(メタデータ) (2024-10-11T08:55:17Z) - From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency [17.612497960364916]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の推論性能を著しく向上させる
代表電力が十分である場合でも,CoTは試料効率を大幅に向上できることを示す。
CoTは入力トークン間のスパース依存関係を導入して学習プロセスを単純化し、スパースかつ解釈可能な注意を喚起することを示す。
論文 参考訳(メタデータ) (2024-10-07T19:45:09Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Iteration Head: A Mechanistic Study of Chain-of-Thought [6.072247578478243]
CoT(Chain-of-Thought)推論は、大規模言語モデルを改善することが知られている。
本稿では,制御・解釈可能な環境下での変圧器のCoT推論について述べる。
論文 参考訳(メタデータ) (2024-06-04T09:11:46Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。