論文の概要: LLMs Explain't: A Post-Mortem on Semantic Interpretability in Transformer Models
- arxiv url: http://arxiv.org/abs/2601.22928v1
- Date: Fri, 30 Jan 2026 12:46:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.444139
- Title: LLMs Explain't: A Post-Mortem on Semantic Interpretability in Transformer Models
- Title(参考訳): LLMs Explain't: トランスフォーマーモデルにおける意味論的解釈可能性に関するポストモーテム
- Authors: Alhassan Abdelhalim, Janick Edinger, Sören Laue, Michaela Regneri,
- Abstract要約: 大きな言語モデル(LLM)は、その汎用性と強力なパフォーマンスのために、広範にコンピューティングで人気が高まっている。
本稿では,LLMにおいて言語的抽象化がどのように現れるのかを考察し,異なるモジュール間で言語的抽象化を検出することを目的とする。
注意に基づく説明は、後層表現がトークンに対応しているというコア仮定をテストすると、崩壊します。
埋め込みに適用される特性推論法も、その高い予測スコアが、方法論的アーティファクトとデータセット構造によって駆動されたため失敗した。
- 参考スコア(独自算出の注目度): 3.7965260744113163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are becoming increasingly popular in pervasive computing due to their versatility and strong performance. However, despite their ubiquitous use, the exact mechanisms underlying their outstanding performance remain unclear. Different methods for LLM explainability exist, and many are, as a method, not fully understood themselves. We started with the question of how linguistic abstraction emerges in LLMs, aiming to detect it across different LLM modules (attention heads and input embeddings). For this, we used methods well-established in the literature: (1) probing for token-level relational structures, and (2) feature-mapping using embeddings as carriers of human-interpretable properties. Both attempts failed for different methodological reasons: Attention-based explanations collapsed once we tested the core assumption that later-layer representations still correspond to tokens. Property-inference methods applied to embeddings also failed because their high predictive scores were driven by methodological artifacts and dataset structure rather than meaningful semantic knowledge. These failures matter because both techniques are widely treated as evidence for what LLMs supposedly understand, yet our results show such conclusions are unwarranted. These limitations are particularly relevant in pervasive and distributed computing settings where LLMs are deployed as system components and interpretability methods are relied upon for debugging, compression, and explaining models.
- Abstract(参考訳): 大きな言語モデル(LLM)は、その汎用性と強力なパフォーマンスのために、広範にコンピューティングで人気が高まっている。
しかし、ユビキタスな使用にもかかわらず、その優れた性能の根底にある正確なメカニズムはいまだ不明である。
LLM説明可能性の異なる方法が存在するが、その多くが完全には理解されていない。
まず,LLMモジュール間の言語的抽象化(アテンションヘッドと入力埋め込み)を検知することを目的として,LLMに言語的抽象化がどのように現れるのか,という問題から始めた。
そこで我々は,(1)トークンレベルの関係構造の探索,(2)埋め込みを人間の解釈可能な特性の担体として用いる特徴マッピングなど,文献でよく確立された手法を用いた。
注意に基づく説明は、後層の表現がトークンに対応しているというコア仮定をテストすると、崩壊します。
埋め込みに適用される特性推論法も、その高い予測スコアが意味のある意味的な知識ではなく、方法論的なアーティファクトやデータセット構造によって駆動されたため失敗した。
いずれの手法もLLMが理解していると思われる証拠として広く扱われているため,これらの失敗は重要である。
これらの制限は、LLMがシステムコンポーネントとしてデプロイされ、解釈可能性メソッドがデバッグ、圧縮、モデル説明に頼っている分散コンピューティング設定に特に関係している。
関連論文リスト
- Computation Mechanism Behind LLM Position Generalization [59.013857707250814]
大規模言語モデル(LLM)は、テキストの位置を扱う際の柔軟性を示す。
彼らは位置摂動のあるテキストを理解し、より長いテキストに一般化することができる。
この研究は言語現象とLLMの計算機構を結びつける。
論文 参考訳(メタデータ) (2025-03-17T15:47:37Z) - Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders [29.356200147371275]
大きな言語モデル(LLM)は人間のクエリを扱うのに優れていますが、時に欠陥や予期せぬ応答を生成することができます。
特徴解釈と相互情報に基づく目的設計のための固定語彙集合を提案する。
そこで本研究では,学習した機能アクティベーションを,対応する説明に基づいて調整する2つの実行時ステアリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-21T16:36:42Z) - PromptExp: Multi-granularity Prompt Explanation of Large Language Models [16.259208045898415]
PromptExpは,トークンレベルの洞察を集約することで,複数の粒度を自動生成するフレームワークである。
PromptExpは、ホワイトボックスとブラックボックスの説明の両方をサポートし、説明をより高い粒度レベルまで拡張する。
PromptExpを感情分析などのケーススタディで評価し,摂動に基づくアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2024-10-16T22:25:15Z) - Traffic Light or Light Traffic? Investigating Phrasal Semantics in Large Language Models [41.233879429714925]
本研究は,フレーズ意味論を理解するためのAPIベースの大規模言語モデルの能力について批判的に考察する。
自然言語命令で指示されたフレーズ意味推論タスクの実行におけるLLMの性能を評価する。
句意味論の理解において, LLM が直面する制約を解釈するために, 詳細な誤り解析を行う。
論文 参考訳(メタデータ) (2024-10-03T08:44:17Z) - Do LLMs Really Adapt to Domains? An Ontology Learning Perspective [2.0755366440393743]
大規模言語モデル(LLM)は、様々なアプリケーション領域において、様々な自然言語処理タスクに対して前例のない進歩を見せている。
近年の研究では、LLMが知識ベースコンプリート(KBC)やオントロジー学習(OL)などの語彙意味タスクに活用できることが示されている。
LLMは本当にドメインに適応し、構造化知識の抽出に一貫性を持ち続けるのか、それとも推論の代わりに語彙感覚のみを学ぶのか?
論文 参考訳(メタデータ) (2024-07-29T13:29:43Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。