論文の概要: Cognitive Mirrors: Exploring the Diverse Functional Roles of Attention Heads in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2512.10978v1
- Date: Wed, 03 Dec 2025 10:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.675734
- Title: Cognitive Mirrors: Exploring the Diverse Functional Roles of Attention Heads in LLM Reasoning
- Title(参考訳): 認知ミラー : LLM推論における注意頭の役割
- Authors: Xueqi Ma, Jun Wang, Yanbei Jiang, Sarah Monazam Erfani, Tongliang Liu, James Bailey,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクにおいて最先端のパフォーマンスを達成したが、内部メカニズムに関してはほとんど不透明である。
本稿では,注目者の役割と行動を体系的に分析する新しい解釈可能性フレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.12174882424842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved state-of-the-art performance in a variety of tasks, but remain largely opaque in terms of their internal mechanisms. Understanding these mechanisms is crucial to improve their reasoning abilities. Drawing inspiration from the interplay between neural processes and human cognition, we propose a novel interpretability framework to systematically analyze the roles and behaviors of attention heads, which are key components of LLMs. We introduce CogQA, a dataset that decomposes complex questions into step-by-step subquestions with a chain-of-thought design, each associated with specific cognitive functions such as retrieval or logical reasoning. By applying a multi-class probing method, we identify the attention heads responsible for these functions. Our analysis across multiple LLM families reveals that attention heads exhibit functional specialization, characterized as cognitive heads. These cognitive heads exhibit several key properties: they are universally sparse, vary in number and distribution across different cognitive functions, and display interactive and hierarchical structures. We further show that cognitive heads play a vital role in reasoning tasks - removing them leads to performance degradation, while augmenting them enhances reasoning accuracy. These insights offer a deeper understanding of LLM reasoning and suggest important implications for model design, training, and fine-tuning strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにおいて最先端のパフォーマンスを達成したが、内部メカニズムに関してはほとんど不透明である。
これらのメカニズムを理解することは、推論能力を改善するために重要である。
ニューラルプロセスと人間の認知の相互作用からインスピレーションを得て,LLMの重要な構成要素である注意頭の役割と行動を体系的に解析する,新しい解釈可能性フレームワークを提案する。
複雑な質問をステップバイステップのサブクエストに分解するデータセットであるCogQAを紹介し、それぞれが検索や論理的推論といった特定の認知機能と関連付けられている。
マルチクラス探索手法を適用することにより,これらの機能に責任を持つ注意ヘッドを同定する。
複数のLSMファミリーで分析した結果,認知的頭部の特徴を特徴とする機能的特殊化がみられた。
これらの認知頭部は、普遍的に疎らで、様々な認知機能にまたがる数と分布が異なり、対話的かつ階層的な構造を示す。
さらに、認知的頭脳がタスクの推論において重要な役割を担っていることを示す。
これらの洞察は、LLM推論をより深く理解し、モデル設計、トレーニング、微調整戦略に重要な意味を示唆します。
関連論文リスト
- Investigating The Functional Roles of Attention Heads in Vision Language Models: Evidence for Reasoning Modules [76.21320451720764]
複雑なマルチモーダル質問をステップバイステップのサブクエストに分解するデータセットであるCogVisionを紹介した。
探索に基づく手法を用いて,これらの機能に特化して機能的頭部として特徴付けるアテンションヘッドを同定する。
分析の結果、これらの機能ヘッドは普遍的に疎結合であり、機能間の数や分布が異なり、相互作用や階層的な組織を仲介することがわかった。
論文 参考訳(メタデータ) (2025-12-11T05:42:53Z) - Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - Fundamentals of Building Autonomous LLM Agents [64.39018305018904]
本稿では,大規模言語モデル(LLM)を用いたエージェントのアーキテクチャと実装手法について概説する。
この研究は、複雑なタスクを自動化し、人間の能力でパフォーマンスのギャップを埋めることのできる「アジェンティック」なLLMを開発するためのパターンを探求することを目的としている。
論文 参考訳(メタデータ) (2025-10-10T10:32:39Z) - Attention Heads of Large Language Models: A Survey [10.136767972375639]
我々は,大規模言語モデル (LLM) の内部的推論過程を体系的に検討し,その役割と機構を解明することを目的としている。
まず,人間の思考プロセスにインスパイアされた新しい4段階のフレームワーク,知識のリコール,文脈内同定,潜在推論,表現準備を紹介する。
本稿では,これらの特殊ヘッドの発見に使用する実験手法を,モデリング自由法とモデリング要求法という2つのカテゴリに分けて分析する。
論文 参考訳(メタデータ) (2024-09-05T17:59:12Z) - CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks [39.43278448546028]
カーネマンの二重系理論は人間の意思決定過程を解明し、素早い直感的なシステム1と合理的なシステム2を区別する。
近年の大きな言語モデル (LLMs) は、認知タスクにおける人間レベルの習熟度に近づきやすいツールとして位置づけられている。
本研究では、自己学習を通じて、意図的な推論から直感的な応答へと進化するLLM(textbfCognidual Framework for LLMs, CFLLMs)について述べる。
論文 参考訳(メタデータ) (2024-09-05T09:33:24Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Interpreting Context Look-ups in Transformers: Investigating Attention-MLP Interactions [19.33740818235595]
本研究では,大規模言語モデル(LLM)において,注意頭と次点ニューロンがどのように相互作用し,新たな単語を予測するかを検討する。
以上の結果から,注意頭は特定の文脈を認識し,それに応じてトークン予測ニューロンを活性化することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-23T02:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。