論文の概要: Iteration Head: A Mechanistic Study of Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2406.02128v1
- Date: Tue, 4 Jun 2024 09:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 17:11:25.862123
- Title: Iteration Head: A Mechanistic Study of Chain-of-Thought
- Title(参考訳): イテレーションヘッド: チェーン・オブ・サードの力学的研究
- Authors: Vivien Cabannes, Charles Arnal, Wassim Bouaziz, Alice Yang, Francois Charton, Julia Kempe,
- Abstract要約: CoT(Chain-of-Thought)推論は、大規模言語モデルを改善することが知られている。
本稿では,制御・解釈可能な環境下での変圧器のCoT推論について述べる。
- 参考スコア(独自算出の注目度): 6.072247578478243
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning is known to improve Large Language Models both empirically and in terms of theoretical approximation power. However, our understanding of the inner workings and conditions of apparition of CoT capabilities remains limited. This paper helps fill this gap by demonstrating how CoT reasoning emerges in transformers in a controlled and interpretable setting. In particular, we observe the appearance of a specialized attention mechanism dedicated to iterative reasoning, which we coined "iteration heads". We track both the emergence and the precise working of these iteration heads down to the attention level, and measure the transferability of the CoT skills to which they give rise between tasks.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、経験的および理論的近似の両面で大きな言語モデルを改善することが知られている。
しかしながら、CoT能力の内的動作と評価条件に対する我々の理解は限定的であり続けている。
本稿では,制御・解釈可能な環境下での変圧器におけるCoT推論の出現を実証することにより,このギャップを埋めることを支援する。
特に,反復的推論を専門とする特別な注意機構の出現を観察し,これを「イテレーションヘッド」と呼ぶ。
これらのイテレーションの出現と正確な作業の両方を注意レベルまで追跡し、タスク間で生じるCoTスキルの伝達可能性を測定します。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration [41.88275731297211]
ステップワイズICLと比較して、前段からの推論が統合された場合、トランスフォーマーはより優れた誤り訂正能力とより正確な予測が得られることを示す。
実演において,正しい推論経路と誤った推論経路の両方を組み込むことにより,CoTの改善を提案する。
論文 参考訳(メタデータ) (2024-10-21T22:07:20Z) - Understanding Reasoning in Chain-of-Thought from the Hopfieldian View [17.18897746431302]
本稿では,認知神経科学における認知のホップフィールド的視点に基づく新しい視点を紹介する。
我々は, CoT(Chain-of-Thought)推論と, 刺激, 行動, 神経集団, 表現空間といった重要な認知要素の関連性を確立する。
我々は,低次元表現空間のロバスト性を利用して,CoTにおける推論過程のロバスト性を高めるRepresentation-of-Thought(RoT)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-04T16:55:30Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。
本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T04:07:13Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。