論文の概要: Learning to Explain: Supervised Token Attribution from Transformer Attention Patterns
- arxiv url: http://arxiv.org/abs/2601.14112v2
- Date: Wed, 21 Jan 2026 14:35:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:57:00.270572
- Title: Learning to Explain: Supervised Token Attribution from Transformer Attention Patterns
- Title(参考訳): 説明の学習:トランスフォーマーの注意パターンによる指導的帰属
- Authors: George Mihaila,
- Abstract要約: 我々は、トランスフォーマーの注意パターンからトークンレベルの重要度スコアへの明示的なマッピングを学習する軽量ニューラルネットワークであるExpplanation Network(ExpNet)を紹介する。
我々はExpNetを挑戦的なクロスタスク設定で評価し、モデルに依存しない幅広い手法と注意に基づく手法に対してベンチマークする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable AI (XAI) has become critical as transformer-based models are deployed in high-stakes applications including healthcare, legal systems, and financial services, where opacity hinders trust and accountability. Transformers self-attention mechanisms have proven valuable for model interpretability, with attention weights successfully used to understand model focus and behavior (Xu et al., 2015); (Wiegreffe and Pinter, 2019). However, existing attention-based explanation methods rely on manually defined aggregation strategies and fixed attribution rules (Abnar and Zuidema, 2020a); (Chefer et al., 2021), while model-agnostic approaches (LIME, SHAP) treat the model as a black box and incur significant computational costs through input perturbation. We introduce Explanation Network (ExpNet), a lightweight neural network that learns an explicit mapping from transformer attention patterns to token-level importance scores. Unlike prior methods, ExpNet discovers optimal attention feature combinations automatically rather than relying on predetermined rules. We evaluate ExpNet in a challenging cross-task setting and benchmark it against a broad spectrum of model-agnostic methods and attention-based techniques spanning four methodological families.
- Abstract(参考訳): 医療、法律システム、金融サービスなどの高度なアプリケーションにトランスフォーマーベースのモデルがデプロイされ、不透明さが信頼と説明責任を妨げているため、説明可能なAI(XAI)は批判的になっている。
トランスフォーマーの自己認識機構はモデル解釈可能性に有用であることが証明されており、モデル焦点と行動を理解するために注意重みをうまく利用している(Xu et al , 2015; Wiegreffe and Pinter, 2019)。
しかし、既存の注意に基づく説明手法は、手動で定義された集約戦略と固定帰属規則(Abnar and Zuidema, 2020a)に依存しており(Chefer et al , 2021)、モデルに依存しないアプローチ(LIME, SHAP)はブラックボックスとして扱うとともに、入力摂動によって計算コストを大幅に削減する。
我々は、トランスフォーマーの注意パターンからトークンレベルの重要度スコアへの明示的なマッピングを学習する軽量ニューラルネットワークであるExpplanation Network(ExpNet)を紹介する。
従来の方法とは異なり、ExpNetは所定のルールに頼るのではなく、自動的に最適な注意機能の組み合わせを発見する。
我々はExpNetを課題のあるクロスタスク設定で評価し、それを4つの方法論ファミリにまたがるモデルに依存しない手法と注意に基づく手法の幅広い範囲に対してベンチマークする。
関連論文リスト
- Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - AttnLRP: Attention-Aware Layer-Wise Relevance Propagation for Transformers [14.147646140595649]
大きな言語モデルは、バイアスのある予測と幻覚の傾向があります。
ブラックボックストランスモデルの完全性への忠実な貢献と計算効率の維持は未解決の課題である。
論文 参考訳(メタデータ) (2024-02-08T12:01:24Z) - Tensor Networks for Explainable Machine Learning in Cybersecurity [0.0]
マトリックス製品状態(MPS)に基づく教師なしクラスタリングアルゴリズムを開発した。
我々の調査は、MPSがオートエンコーダやGANといった従来のディープラーニングモデルと性能的に競合していることを証明している。
提案手法は,機能的確率,フォン・ノイマン・エントロピー,相互情報の抽出を自然に促進する。
論文 参考訳(メタデータ) (2023-12-29T22:35:45Z) - Evaluating Explainability in Machine Learning Predictions through Explainer-Agnostic Metrics [0.0]
我々は,モデル予測が説明できる範囲を定量化するために,6つの異なるモデルに依存しないメトリクスを開発した。
これらのメトリクスは、局所的な重要性、グローバルな重要性、代理予測など、モデル説明可能性のさまざまな側面を測定する。
分類と回帰タスクにおけるこれらのメトリクスの実用性を実証し、これらのメトリクスを公開のために既存のPythonパッケージに統合する。
論文 参考訳(メタデータ) (2023-02-23T15:28:36Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。