論文の概要: Attention Mechanisms Don't Learn Additive Models: Rethinking Feature Importance for Transformers
- arxiv url: http://arxiv.org/abs/2405.13536v2
- Date: Thu, 09 Jan 2025 17:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:57:47.688301
- Title: Attention Mechanisms Don't Learn Additive Models: Rethinking Feature Importance for Transformers
- Title(参考訳): 付加的モデルを学習しない注意メカニズム:トランスフォーマーの特徴的重要性を再考する
- Authors: Tobias Leemann, Alina Fastowski, Felix Pfeiffer, Gjergji Kasneci,
- Abstract要約: 変換器は、特徴属性に使用される線形または付加的な代理モデルを表現することができず、構造的に不可能である。
我々は,変圧器フレームワークに特化して設計された新しい代理モデルであるSoftmax-Linked Additive Log Odds Model (SLALOM)を紹介する。
SLALOMが競合する代理モデルよりもはるかに高い忠実さで説明できることを示すことで、SLALOMの独特な効率品質曲線を強調した。
- 参考スコア(独自算出の注目度): 12.986126243018452
- License:
- Abstract: We address the critical challenge of applying feature attribution methods to the transformer architecture, which dominates current applications in natural language processing and beyond. Traditional attribution methods to explainable AI (XAI) explicitly or implicitly rely on linear or additive surrogate models to quantify the impact of input features on a model's output. In this work, we formally prove an alarming incompatibility: transformers are structurally incapable of representing linear or additive surrogate models used for feature attribution, undermining the grounding of these conventional explanation methodologies. To address this discrepancy, we introduce the Softmax-Linked Additive Log Odds Model (SLALOM), a novel surrogate model specifically designed to align with the transformer framework. SLALOM demonstrates the capacity to deliver a range of insightful explanations with both synthetic and real-world datasets. We highlight SLALOM's unique efficiency-quality curve by showing that SLALOM can produce explanations with substantially higher fidelity than competing surrogate models or provide explanations of comparable quality at a fraction of their computational costs. We release code for SLALOM as an open-source project online at https://github.com/tleemann/slalom_explanations.
- Abstract(参考訳): 本稿では, 自然言語処理などにおける現在の応用を支配下に置くトランスフォーマーアーキテクチャに, 特徴帰属手法を適用するという重要な課題に対処する。
説明可能なAI(XAI)への従来の帰属法は、モデル出力に対する入力特徴の影響を定量化するために、線形または追加的な代理モデルに明示的にあるいは暗黙的に依存する。
変換器は、特徴属性に使用される線形または付加的な代理モデルを表現することができず、従来の説明手法の根拠を損なう。
この相違に対処するために、トランスフォーマーフレームワークに特化して設計された新しい代理モデルであるSoftmax-Linked Additive Log Odds Model (SLALOM)を導入する。
SLALOMは、合成データセットと実世界のデータセットの両方で、さまざまな洞察力のある説明を提供する能力を示している。
SLALOMは競合するサロゲートモデルよりもはるかに高忠実な説明や、計算コストのごく一部で同等の品質の説明が可能であることを示すことで、SLALOMのユニークな効率品質曲線を強調した。
SLALOMのソースコードはhttps://github.com/tleemann/slalom_explanations.comで公開しています。
関連論文リスト
- Disentanglement with Factor Quantized Variational Autoencoders [11.086500036180222]
本稿では,生成因子に関する基礎的真理情報をモデルに提供しない離散変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 離散表現を学習する上で, 連続表現を学習することの利点を実証する。
FactorQVAEと呼ばれる手法は,最適化に基づく不整合アプローチと離散表現学習を組み合わせた最初の手法である。
論文 参考訳(メタデータ) (2024-09-23T09:33:53Z) - Explaining Modern Gated-Linear RNNs via a Unified Implicit Attention Formulation [54.50526986788175]
効率的なシーケンスモデリングの最近の進歩は、Mamba、RWKV、および様々なゲートRNNのような注意のないレイヤーを生み出している。
我々はこれらのモデルの統一的なビューを示し、暗黙の因果自己注意層のような層を定式化する。
筆者らのフレームワークは,異なるレイヤに対する類似の基盤となるメカニズムを比較検討し,説明可能性の手法を直接適用する手段を提供する。
論文 参考訳(メタデータ) (2024-05-26T09:57:45Z) - MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.68829963458408]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - AttnLRP: Attention-Aware Layer-Wise Relevance Propagation for Transformers [14.147646140595649]
大きな言語モデルは、バイアスのある予測と幻覚の傾向があります。
ブラックボックストランスモデルの完全性への忠実な貢献と計算効率の維持は未解決の課題である。
論文 参考訳(メタデータ) (2024-02-08T12:01:24Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Embedded-model flows: Combining the inductive biases of model-free deep
learning and explicit probabilistic modeling [8.405013085269976]
ドメイン固有の帰納バイアスを埋め込んだ構造層を用いた汎用変換を交互に行う組込みモデルフローを提案する。
EMFは,多モード性,階層的結合性,連続性などの望ましい特性を誘導するのに有効であることを示す。
実験では、この手法が一般的な構造的推論問題において最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-12T14:12:16Z) - CARE: Coherent Actionable Recourse based on Sound Counterfactual
Explanations [0.0]
本稿では,モデルおよびユーザレベルのデシダータに対処するモジュール型説明フレームワークであるCAREを紹介する。
モデルに依存しないアプローチとして、CAREはブラックボックスモデルに対して複数の多様な説明を生成する。
論文 参考訳(メタデータ) (2021-08-18T15:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。