論文の概要: Attributions All the Way Down? The Metagame of Interpretability
- arxiv url: http://arxiv.org/abs/2605.06295v1
- Date: Thu, 07 May 2026 13:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.8713
- Title: Attributions All the Way Down? The Metagame of Interpretability
- Title(参考訳): 属性が下方へ? 解釈のメタゲーム
- Authors: Hubert Baniecki, Przemyslaw Biecek, Fabian Fumagalli,
- Abstract要約: モデル説明の2階相互作用効果を定量化するための概念的枠組みであるメタゲームを紹介する。
属性が階層的にメタ属性に分解されることを証明し、これらを既存の相互作用指標の方向性拡張として確立する。
- 参考スコア(独自算出の注目度): 20.626161249891993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the metagame, a conceptual framework for quantifying second-order interaction effects of model explanations. For any first-order attribution $φ(f)$ explaining a model $f$, we measure the directional influence of feature $j$ on the attribution of feature $i$, denoted as meta-attribution $\varphi_{j \to i}(f)$, by treating the attribution method itself as a cooperative game and computing its Shapley value. Theoretically, we prove that attributions hierarchically decompose into meta-attributions, and establish these as directional extensions of existing interaction indices. Empirically, we demonstrate that the metagame delivers insights across diverse interpretability applications: (i) quantifying token interactions in instruction-tuned language models, (ii) explaining cross-modal similarity in vision-language encoders, and (iii) interpreting text-to-image concepts in multimodal diffusion transformers.
- Abstract(参考訳): モデル説明の2階相互作用効果を定量化するための概念的枠組みであるメタゲームを紹介する。
モデル$f$を説明する任意の一階属性$φ(f)$に対して、メタ属性$\varphi_{j \to i}(f)$と呼ばれる特徴$i$の属性に対する特徴$j$の方向性の影響を、属性メソッド自体を協調ゲームとして扱い、Shapley値を計算することで測定する。
理論的には、属性が階層的にメタ属性に分解されることを証明し、これらを既存の相互作用指標の方向性拡張として確立する。
経験的に、メタゲームが様々な解釈可能性アプリケーションにまたがる洞察を提供することを実証します。
i)命令調整言語モデルにおけるトークン相互作用の定量化。
二 視覚言語エンコーダにおけるクロスモーダル類似性の説明及び
三 マルチモーダル拡散変換器におけるテキスト・画像概念の解釈
関連論文リスト
- PromptSplit: Revealing Prompt-Level Disagreement in Generative Models [18.957478338649114]
プロンプト誘導型生成AIモデルは、視覚領域と言語領域に急速に拡張されている。
本稿では,生成モデル間の即時依存不一致を検出し解析するためのカーネルベースのフレームワークであるPromptSplitを提案する。
テキスト・ツー・イメージ、テキスト・トゥ・テキスト、イメージ・キャプション設定にわたる実験は、PromptSplitが地面と真実の行動の違いを正確に検出していることを示している。
論文 参考訳(メタデータ) (2026-02-03T20:53:10Z) - Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space [56.37266873329401]
大規模言語モデル (LLM) は、高度に一様でない情報密度を示す言語にもかかわらず、全てのトークンに一様計算を適用する。
我々は,潜在表現から意味境界を学習し,トークンから推論がより効率的である圧縮概念空間へ移行する階層型言語モデリングフレームワークである$textbfDynamic Large Concept Models (DLCM)$を提案する。
論文 参考訳(メタデータ) (2025-12-31T04:19:33Z) - Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions [25.897711293173362]
言語画像事前学習(LIP)は、ゼロショット分類、ローカライゼーション、マルチモーダル検索、意味理解が可能な視覚言語モデルの開発を可能にする。
モデル類似度出力における入力画像とテキストのペアの重要性を可視化する様々な説明法が提案されている。
我々は、視覚言語エンコーダの類似性を分解するための統一的なアプローチとして、LIPモデルの忠実な相互作用説明(FIxLIP)を導入する。
論文 参考訳(メタデータ) (2025-08-07T14:18:56Z) - Interaction Asymmetry: A General Principle for Learning Composable Abstractions [27.749478197803256]
相互作用非対称性は、アンタングル化と合成一般化の両方を可能にすることを示す。
本稿では, フレキシブルトランスフォーマーをベースとしたVAEを用いて, デコーダの注意重みに対する新しい正規化器を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:33:26Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Towards Unifying Feature Attribution and Counterfactual Explanations:
Different Means to the Same End [17.226134854746267]
本稿では,一組の反実例から特徴帰属説明を生成する手法を提案する。
本報告では, 帰属に基づく説明の妥当性を, その必要性と充足性の観点から評価するために, 対実例をいかに活用するかを示す。
論文 参考訳(メタデータ) (2020-11-10T05:41:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。