論文の概要: How to think step-by-step: A mechanistic understanding of
chain-of-thought reasoning
- arxiv url: http://arxiv.org/abs/2402.18312v1
- Date: Wed, 28 Feb 2024 13:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 14:55:01.026312
- Title: How to think step-by-step: A mechanistic understanding of
chain-of-thought reasoning
- Title(参考訳): ステップバイステップ:連鎖推論の機械的理解
- Authors: Subhabrata Dutta, Joykirat Singh, Soumen Chakrabarti, Tanmoy
Chakraborty
- Abstract要約: 理解の欠如は、CoT(Chain-of-Thought)の促進を促進するモデルの内部メカニズムに大きく影響する。
本研究では,CoT推論を一視点から示す大規模言語モデル内の神経サブ構造について検討する。
- 参考スコア(独自算出の注目度): 48.09058204728753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite superior reasoning prowess demonstrated by Large Language Models
(LLMs) with Chain-of-Thought (CoT) prompting, a lack of understanding prevails
around the internal mechanisms of the models that facilitate CoT generation.
This work investigates the neural sub-structures within LLMs that manifest CoT
reasoning from a mechanistic point of view. From an analysis of LLaMA-2 7B
applied to multistep reasoning over fictional ontologies, we demonstrate that
LLMs deploy multiple parallel pathways of answer generation for step-by-step
reasoning. These parallel pathways provide sequential answers from the input
question context as well as the generated CoT. We observe a striking functional
rift in the middle layers of the LLM. Token representations in the initial half
remain strongly biased towards the pretraining prior, with the in-context
taking over abruptly in the later half. This internal phase shift manifests in
different functional components: attention heads that write the answer token
predominantly appear in the later half, attention heads that move information
along ontological relationships appear exclusively in the initial half, and so
on. To the best of our knowledge, this is the first attempt towards mechanistic
investigation of CoT reasoning in LLMs.
- Abstract(参考訳): CoT(Chain-of-Thought)を刺激するLarge Language Models(LLMs)による優れた推論技術にもかかわらず、CoT生成を促進するモデルの内部メカニズムに関する理解の欠如が一般的である。
本研究では、機械的観点からCoT推論を示すLLM内の神経サブ構造について検討する。
LLaMA-2 7Bを架空のオントロジー上の多段階推論に適用した解析から,LLMはステップバイステップ推論のために複数のパラレルな応答生成経路をデプロイすることを示した。
これらの並列経路は、入力された質問コンテキストと生成されたCoTからの逐次応答を提供する。
LLMの中層における顕著な機能的亀裂を観察した。
最初の半分のトークン表現は、前もってトレーニングされる前に強く偏りがちであり、インコンテキストが後半分で突然引き継がれている。
この内部位相シフトは異なる機能成分に現れ、応答トークンを書く注意頭は後半に主に現れ、存在論的関係に沿って情報を移動させる注意頭は前半にのみ現れる。
我々の知る限りでは、LLMにおけるCoT推論の機械論的研究への最初の試みである。
関連論文リスト
- Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study
on Syllogism [19.590120229602103]
大規模言語モデル(LLM)は、ステップバイステップの推論命令、例えばチェーン・オブ・シント(CoT)プロンプトを利用する。
本研究では, 否定に着目したLCMのステップバイステップ推論能力について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:40:41Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。