論文の概要: Mechanistic Indicators of Understanding in Large Language Models
- arxiv url: http://arxiv.org/abs/2507.08017v3
- Date: Thu, 24 Jul 2025 12:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.014766
- Title: Mechanistic Indicators of Understanding in Large Language Models
- Title(参考訳): 大規模言語モデルにおける理解の力学指標
- Authors: Pierre Beckmann, Matthieu Queloz,
- Abstract要約: 我々は,Large Language Models (LLM) が,接続の確認に係わる理解と機能的に類似した内部構造を発達させることを論じる。
概念的理解は、モデルが潜在空間の方向として「機能」を形成し、何かの多様な表現の間のつながりを学ぶときに現れる。
第二に、状態の理解は、モデルが機能間の連続した事実的なつながりを学び、世界の変化を動的に追跡するときに現れる。
第三に、モデルが記憶された事実の集まりに頼るのをやめ、これらの事実を繋ぐ「循環」を発見すると、原則化された理解が生まれる。
- 参考スコア(独自算出の注目度): 2.752171077382186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent findings in mechanistic interpretability (MI), the field probing the inner workings of Large Language Models (LLMs), challenge the view that these models rely solely on superficial statistics. We offer an accessible synthesis of these findings that doubles as an introduction to MI while integrating these findings within a novel theoretical framework for thinking about machine understanding. We argue that LLMs develop internal structures that are functionally analogous to the kind of understanding that consists in seeing connections. To sharpen this idea, we propose a three-tiered conception of understanding. First, conceptual understanding emerges when a model forms "features" as directions in latent space, learning the connections between diverse manifestations of something. Second, state-of-the-world understanding emerges when a model learns contingent factual connections between features and dynamically tracks changes in the world. Third, principled understanding emerges when a model ceases to rely on a collection of memorized facts and discovers a "circuit" connecting these facts. However, these forms of understanding remain radically different from human understanding, as the phenomenon of "parallel mechanisms" shows. We conclude that the debate should move beyond the yes-or-no question of whether LLMs understand to investigate how their strange minds work and forge conceptions that fit them.
- Abstract(参考訳): 近年,Large Language Models (LLMs) の内部構造を探る場である機械的解釈可能性 (MI) の発見は,これらのモデルが表層統計にのみ依存しているという見解に異議を唱えている。
機械の理解について考えるための理論的な枠組みにこれらの知見を組み入れつつ、MIの導入としてこれらの知見を2倍にするための、アクセス可能な合成を提供する。
我々は,LLMが内部構造を発達させることを論じる。
この考え方を研ぐために,我々は3段階の理解概念を提案する。
第一に、概念的理解は、モデルが潜在空間の方向として「機能」を形成し、何かの多様な表現の間のつながりを学ぶときに現れる。
第二に、状態の理解は、モデルが機能間の連続した事実的なつながりを学び、世界の変化を動的に追跡するときに現れる。
第三に、モデルが記憶された事実の集まりに頼るのをやめ、これらの事実を繋ぐ「循環」を発見すると、原則化された理解が生まれる。
しかしながら、これらの理解形態は「並列メカニズム」の現象が示すように、人間の理解とは根本的に異なるままである。
この議論は、LSMが彼らの奇妙な心がどのように機能するかを理解し、それらに適合する概念を鍛えるかどうかという、イエスかノーかという疑問を超えて進めるべきである、と結論付けている。
関連論文リスト
- Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging [32.70038648928894]
VLM(Vision-Language Models)は、視覚認識と、Large Language Models (LLMs)の推論などの一般的な機能を組み合わせたモデルである。
本研究では,異なるモデルのパラメータを結合するモデルマージによる知覚と推論について検討する。
知覚能力は主にモデルの初期段階の層にコード化されているのに対して、推論は中期から後期の層によって大きく促進されている。
論文 参考訳(メタデータ) (2025-05-08T17:56:23Z) - Beyond Pattern Recognition: Probing Mental Representations of LMs [9.461066161954077]
言語モデル(LM)は、複雑な推論タスクを解く際、印象的な能力を示している。
我々は,様々なLMの精神モデルについて深く掘り下げることを提案する。
論文 参考訳(メタデータ) (2025-02-23T21:20:28Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Reasoning Circuits in Language Models: A Mechanistic Interpretation of Syllogistic Inference [13.59675117792588]
言語モデル(LM)に関する最近の研究は、体系的な推論原理を学べるかという議論を巻き起こしている。
本稿では,シロメトリクス推論の機械論的解釈について述べる。
論文 参考訳(メタデータ) (2024-08-16T07:47:39Z) - The Cognitive Revolution in Interpretability: From Explaining Behavior to Interpreting Representations and Algorithms [3.3653074379567096]
機械的解釈可能性(MI)は、大きな言語モデルのような基礎モデルによって学習された特徴と暗黙のアルゴリズムを研究する別の研究領域として登場した。
我々は、20世紀の心理学における「認知革命」を反映した深層学習解釈の移行を促進するために、現在の手法が熟していると論じる。
計算神経科学におけるキーパラレルを反映した分類法を提案し,MI研究の2つの幅広いカテゴリについて述べる。
論文 参考訳(メタデータ) (2024-08-11T20:50:16Z) - Aligned at the Start: Conceptual Groupings in LLM Embeddings [10.282327560070202]
本稿では、しばしば見落とされがちな入力埋め込み(初期表現をトランスフォーマーブロックに入力する)に焦点を移す。
ファジィグラフ,k-nearest neighbor(k-NN),およびコミュニティ検出を用いて,多様なLDMの埋め込みを解析した。
論文 参考訳(メタデータ) (2024-06-08T01:27:19Z) - What does the Knowledge Neuron Thesis Have to do with Knowledge? [13.651280182588666]
我々は,知識ニューロン(KN)を再評価し,学習コーパスから事実を想起する大規模言語モデルの能力の基盤となるメカニズムを解釈する。
この論文は、せいぜい、過度に単純化されている。
論文 参考訳(メタデータ) (2024-05-03T18:34:37Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals [82.68757839524677]
解釈可能性研究は、経験的成功と大規模言語モデル(LLM)の科学的理解のギャップを埋めることを目的としている。
本稿では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目した,メカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T17:26:51Z) - Learning Interpretable Concepts: Unifying Causal Representation Learning and Foundation Models [80.32412260877628]
人間の解釈可能な概念をデータから学習する方法を研究する。
両分野からアイデアをまとめ、多様なデータから概念を確実に回収できることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:23:59Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。