Fugu-MT 論文翻訳(概要): Iteration Head: A Mechanistic Study of Chain-of-Thought

論文の概要: Iteration Head: A Mechanistic Study of Chain-of-Thought

arxiv url: http://arxiv.org/abs/2406.02128v1
Date: Tue, 4 Jun 2024 09:11:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 17:11:25.862123
Title: Iteration Head: A Mechanistic Study of Chain-of-Thought
Title（参考訳）: イテレーションヘッド: チェーン・オブ・サードの力学的研究
Authors: Vivien Cabannes, Charles Arnal, Wassim Bouaziz, Alice Yang, Francois Charton, Julia Kempe,
Abstract要約: CoT(Chain-of-Thought)推論は、大規模言語モデルを改善することが知られている。本稿では,制御・解釈可能な環境下での変圧器のCoT推論について述べる。
参考スコア（独自算出の注目度）: 6.072247578478243
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Chain-of-Thought (CoT) reasoning is known to improve Large Language Models both empirically and in terms of theoretical approximation power. However, our understanding of the inner workings and conditions of apparition of CoT capabilities remains limited. This paper helps fill this gap by demonstrating how CoT reasoning emerges in transformers in a controlled and interpretable setting. In particular, we observe the appearance of a specialized attention mechanism dedicated to iterative reasoning, which we coined "iteration heads". We track both the emergence and the precise working of these iteration heads down to the attention level, and measure the transferability of the CoT skills to which they give rise between tasks.
Abstract（参考訳）: CoT(Chain-of-Thought)推論は、経験的および理論的近似の両面で大きな言語モデルを改善することが知られている。しかしながら、CoT能力の内的動作と評価条件に対する我々の理解は限定的であり続けている。本稿では,制御・解釈可能な環境下での変圧器におけるCoT推論の出現を実証することにより,このギャップを埋めることを支援する。特に,反復的推論を専門とする特別な注意機構の出現を観察し,これを「イテレーションヘッド」と呼ぶ。これらのイテレーションの出現と正確な作業の両方を注意レベルまで追跡し、タスク間で生じるCoTスキルの伝達可能性を測定します。

関連論文リスト

Unveiling Confirmation Bias in Chain-of-Thought Reasoning [12.150655660758359]
大型言語モデル(LLM)の推論能力を高めるために、チェーン・オブ・シークレット(CoT)プロンプトが広く採用されている。本研究は認知心理学におけるテキスト確認バイアスのレンズを通してCoTの行動を理解する新しい視点を示す。
論文参考訳（メタデータ） (2025-06-14T01:30:17Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration [41.88275731297211]
ステップワイズICLと比較して、前段からの推論が統合された場合、トランスフォーマーはより優れた誤り訂正能力とより正確な予測が得られることを示す。実演において,正しい推論経路と誤った推論経路の両方を組み込むことにより,CoTの改善を提案する。
論文参考訳（メタデータ） (2024-10-21T22:07:20Z)
Understanding Reasoning in Chain-of-Thought from the Hopfieldian View [17.18897746431302]
本稿では,認知神経科学における認知のホップフィールド的視点に基づく新しい視点を紹介する。我々は, CoT(Chain-of-Thought)推論と, 刺激, 行動, 神経集団, 表現空間といった重要な認知要素の関連性を確立する。我々は,低次元表現空間のロバスト性を利用して,CoTにおける推論過程のロバスト性を高めるRepresentation-of-Thought(RoT)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-04T16:55:30Z)
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。 CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文参考訳（メタデータ） (2024-10-03T03:12:51Z)
Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。 DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文参考訳（メタデータ） (2024-06-18T04:07:13Z)
Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。 LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文参考訳（メタデータ） (2023-08-31T14:31:48Z)
Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する無効な実演でもCoT推論が可能であることを示す。
論文参考訳（メタデータ） (2022-12-20T05:20:54Z)
Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文参考訳（メタデータ） (2022-05-25T09:53:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。