論文の概要: Prediction is not Explanation: Revisiting the Explanatory Capacity of Mapping Embeddings
- arxiv url: http://arxiv.org/abs/2508.13729v1
- Date: Tue, 19 Aug 2025 11:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.895675
- Title: Prediction is not Explanation: Revisiting the Explanatory Capacity of Mapping Embeddings
- Title(参考訳): 説明的でない予測--埋め込みの説明能力を再考する
- Authors: Hanna Herasimchyk, Alhassan Abdelhalim, Sören Laue, Michaela Regneri,
- Abstract要約: 本稿では,単語埋め込みに符号化された知識を説明するための共通手法について検討する。
予測精度だけでは、真の特徴ベースの解釈可能性を示すものではない。
- 参考スコア(独自算出の注目度): 6.291731291478243
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding what knowledge is implicitly encoded in deep learning models is essential for improving the interpretability of AI systems. This paper examines common methods to explain the knowledge encoded in word embeddings, which are core elements of large language models (LLMs). These methods typically involve mapping embeddings onto collections of human-interpretable semantic features, known as feature norms. Prior work assumes that accurately predicting these semantic features from the word embeddings implies that the embeddings contain the corresponding knowledge. We challenge this assumption by demonstrating that prediction accuracy alone does not reliably indicate genuine feature-based interpretability. We show that these methods can successfully predict even random information, concluding that the results are predominantly determined by an algorithmic upper bound rather than meaningful semantic representation in the word embeddings. Consequently, comparisons between datasets based solely on prediction performance do not reliably indicate which dataset is better captured by the word embeddings. Our analysis illustrates that such mappings primarily reflect geometric similarity within vector spaces rather than indicating the genuine emergence of semantic properties.
- Abstract(参考訳): ディープラーニングモデルに暗黙的にエンコードされている知識を理解することは、AIシステムの解釈可能性を改善するために不可欠である。
本稿では,大言語モデル(LLM)のコア要素である単語埋め込みに符号化された知識を説明するための共通手法について検討する。
これらの手法は通常、特徴ノルムとして知られる人間の解釈可能なセマンティックな特徴の集合に埋め込みをマッピングする。
先行研究は、単語の埋め込みからこれらの意味的特徴を正確に予測することは、埋め込みが対応する知識を含んでいることを意味すると仮定している。
予測精度だけでは、真の特徴に基づく解釈可能性を確実に示さないことを示すことで、この仮定に挑戦する。
これらの手法は,単語埋め込みにおける意味的意味表現よりも,アルゴリズム上界によって決定されることを結論として,ランダムな情報の予測に成功していることを示す。
したがって、予測性能のみに基づくデータセットの比較は、単語埋め込みによってどのデータセットがより捕えられるかを確実に示さない。
解析により、そのような写像は、意味的特性の真の出現を示すのではなく、主にベクトル空間内の幾何学的類似性を反映していることが示された。
関連論文リスト
- Semantic and Structural Analysis of Implicit Biases in Large Language Models: An Interpretable Approach [1.5749416770494704]
モデル出力に隠された社会的バイアスを特定するための解釈可能なバイアス検出手法を提案する。
この方法は、ネストされた意味表現と文脈的コントラスト機構を組み合わせる。
この評価は、バイアス検出精度、セマンティック一貫性、文脈感度など、いくつかの重要な指標に焦点を当てている。
論文 参考訳(メタデータ) (2025-08-08T09:21:10Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Explaining the Unexplained: Revealing Hidden Correlations for Better Interpretability [1.8274323268621635]
Real Explainer(RealExp)は、Shapley値を個々の特徴と特徴相関の重要度に分解する、解釈可能性の手法である。
RealExpは、個々の特徴とそれらの相互作用を正確に定量化することで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-12-02T10:50:50Z) - kNN Classification of Malware Data Dependency Graph Features [0.0]
本研究では,構造や意味に関連付けられた特徴を用いて,正確な分類を行う。
ラベル付きデータを用いて正確なモデルを訓練することにより、この意味論の特徴表現が基底真理ラベルと相関していることが示される。
この結果から,データ依存グラフが意味的情報と構造的情報の両方を正確に把握し,分類結果の説明可能性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-06-04T16:39:02Z) - Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Robust Semantic Interpretability: Revisiting Concept Activation Vectors [0.0]
画像分類のための解釈可能性手法は、モデルが系統的に偏りがあるか、あるいは人間と同じ手掛かりに従うかを明らかにすることを試みる。
提案するRobust Concept Activation Vectors (RCAV) は,個々のモデル予測やモデル全体の振る舞いに対する意味概念の影響を定量化する。
論文 参考訳(メタデータ) (2021-04-06T20:14:59Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。