論文の概要: How to think step-by-step: A mechanistic understanding of
chain-of-thought reasoning
- arxiv url: http://arxiv.org/abs/2402.18312v1
- Date: Wed, 28 Feb 2024 13:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 14:55:01.026312
- Title: How to think step-by-step: A mechanistic understanding of
chain-of-thought reasoning
- Title(参考訳): ステップバイステップ:連鎖推論の機械的理解
- Authors: Subhabrata Dutta, Joykirat Singh, Soumen Chakrabarti, Tanmoy
Chakraborty
- Abstract要約: 理解の欠如は、CoT(Chain-of-Thought)の促進を促進するモデルの内部メカニズムに大きく影響する。
本研究では,CoT推論を一視点から示す大規模言語モデル内の神経サブ構造について検討する。
- 参考スコア(独自算出の注目度): 48.09058204728753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite superior reasoning prowess demonstrated by Large Language Models
(LLMs) with Chain-of-Thought (CoT) prompting, a lack of understanding prevails
around the internal mechanisms of the models that facilitate CoT generation.
This work investigates the neural sub-structures within LLMs that manifest CoT
reasoning from a mechanistic point of view. From an analysis of LLaMA-2 7B
applied to multistep reasoning over fictional ontologies, we demonstrate that
LLMs deploy multiple parallel pathways of answer generation for step-by-step
reasoning. These parallel pathways provide sequential answers from the input
question context as well as the generated CoT. We observe a striking functional
rift in the middle layers of the LLM. Token representations in the initial half
remain strongly biased towards the pretraining prior, with the in-context
taking over abruptly in the later half. This internal phase shift manifests in
different functional components: attention heads that write the answer token
predominantly appear in the later half, attention heads that move information
along ontological relationships appear exclusively in the initial half, and so
on. To the best of our knowledge, this is the first attempt towards mechanistic
investigation of CoT reasoning in LLMs.
- Abstract(参考訳): CoT(Chain-of-Thought)を刺激するLarge Language Models(LLMs)による優れた推論技術にもかかわらず、CoT生成を促進するモデルの内部メカニズムに関する理解の欠如が一般的である。
本研究では、機械的観点からCoT推論を示すLLM内の神経サブ構造について検討する。
LLaMA-2 7Bを架空のオントロジー上の多段階推論に適用した解析から,LLMはステップバイステップ推論のために複数のパラレルな応答生成経路をデプロイすることを示した。
これらの並列経路は、入力された質問コンテキストと生成されたCoTからの逐次応答を提供する。
LLMの中層における顕著な機能的亀裂を観察した。
最初の半分のトークン表現は、前もってトレーニングされる前に強く偏りがちであり、インコンテキストが後半分で突然引き継がれている。
この内部位相シフトは異なる機能成分に現れ、応答トークンを書く注意頭は後半に主に現れ、存在論的関係に沿って情報を移動させる注意頭は前半にのみ現れる。
我々の知る限りでは、LLMにおけるCoT推論の機械論的研究への最初の試みである。
関連論文リスト
- Distributional reasoning in LLMs: Parallel reasoning processes in multi-hop reasoning [8.609587510471943]
本稿では,大規模言語モデルにおける内部マルチホップ推論プロセスの新規かつ解釈可能な解析手法を提案する。
推論中、ネットワークの中間層は高度に解釈可能な埋め込みを生成する。
我々の発見は、LLMが推論タスクの解決に使っている戦略を明らかにするのに役立ち、人工知能から生まれる思考プロセスのタイプに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-06-19T21:36:40Z) - An Investigation of Neuron Activation as a Unified Lens to Explain Chain-of-Thought Eliciting Arithmetic Reasoning of LLMs [8.861378619584093]
大型言語モデル (LLM) は、Chain-of-Thoughtプロンプトによって引き起こされるときに強い算術的推論能力を示す。
我々は、先行研究による観察を統一的に説明するために、レンズとしての「ニューロン活性化」について検討する。
論文 参考訳(メタデータ) (2024-06-18T05:49:24Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
CoT(Chain-of-Thought)は,Large Language Models(LLMs)から推論能力を引き出すための,有望なテクニックとして登場した。
本稿では,LLMの推論過程を人間と比較することにより,その基盤となるメカニズムを診断する。
実験により, LLMは因果連鎖から逸脱することが多く, 相関関係や潜在的な整合性誤差が生じることが判明した。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。