論文の概要: Learning to Explain: Supervised Token Attribution from Transformer Attention Patterns
- arxiv url: http://arxiv.org/abs/2601.14112v2
- Date: Wed, 21 Jan 2026 14:35:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:57:00.270572
- Title: Learning to Explain: Supervised Token Attribution from Transformer Attention Patterns
- Title(参考訳): 説明の学習:トランスフォーマーの注意パターンによる指導的帰属
- Authors: George Mihaila,
- Abstract要約: 我々は、トランスフォーマーの注意パターンからトークンレベルの重要度スコアへの明示的なマッピングを学習する軽量ニューラルネットワークであるExpplanation Network(ExpNet)を紹介する。
我々はExpNetを挑戦的なクロスタスク設定で評価し、モデルに依存しない幅広い手法と注意に基づく手法に対してベンチマークする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable AI (XAI) has become critical as transformer-based models are deployed in high-stakes applications including healthcare, legal systems, and financial services, where opacity hinders trust and accountability. Transformers self-attention mechanisms have proven valuable for model interpretability, with attention weights successfully used to understand model focus and behavior (Xu et al., 2015); (Wiegreffe and Pinter, 2019). However, existing attention-based explanation methods rely on manually defined aggregation strategies and fixed attribution rules (Abnar and Zuidema, 2020a); (Chefer et al., 2021), while model-agnostic approaches (LIME, SHAP) treat the model as a black box and incur significant computational costs through input perturbation. We introduce Explanation Network (ExpNet), a lightweight neural network that learns an explicit mapping from transformer attention patterns to token-level importance scores. Unlike prior methods, ExpNet discovers optimal attention feature combinations automatically rather than relying on predetermined rules. We evaluate ExpNet in a challenging cross-task setting and benchmark it against a broad spectrum of model-agnostic methods and attention-based techniques spanning four methodological families.
- Abstract(参考訳): 医療、法律システム、金融サービスなどの高度なアプリケーションにトランスフォーマーベースのモデルがデプロイされ、不透明さが信頼と説明責任を妨げているため、説明可能なAI(XAI)は批判的になっている。
トランスフォーマーの自己認識機構はモデル解釈可能性に有用であることが証明されており、モデル焦点と行動を理解するために注意重みをうまく利用している(Xu et al , 2015; Wiegreffe and Pinter, 2019)。
しかし、既存の注意に基づく説明手法は、手動で定義された集約戦略と固定帰属規則(Abnar and Zuidema, 2020a)に依存しており(Chefer et al , 2021)、モデルに依存しないアプローチ(LIME, SHAP)はブラックボックスとして扱うとともに、入力摂動によって計算コストを大幅に削減する。
我々は、トランスフォーマーの注意パターンからトークンレベルの重要度スコアへの明示的なマッピングを学習する軽量ニューラルネットワークであるExpplanation Network(ExpNet)を紹介する。
従来の方法とは異なり、ExpNetは所定のルールに頼るのではなく、自動的に最適な注意機能の組み合わせを発見する。
我々はExpNetを課題のあるクロスタスク設定で評価し、それを4つの方法論ファミリにまたがるモデルに依存しない手法と注意に基づく手法の幅広い範囲に対してベンチマークする。
関連論文リスト
- From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks [0.0]
SALVEは機械的解釈可能性とモデル編集を橋渡しするフレームワークである。
私たちは、監督なしでスパースでモデルネイティブな機能ベースを学びます。
Grad-FAM(英語版)によりこれらの特徴を検証した。
論文 参考訳(メタデータ) (2025-12-17T20:06:03Z) - Pushing the Boundaries of Interpretability: Incremental Enhancements to the Explainable Boosting Machine [1.2461503242570642]
本稿では,最新のガラス箱モデルである Explainable Boosting Machine (EBM) を改良し,高精度かつ完全な透明性を実現することを目的とする。
この研究は、堅牢で公平で透明な機械学習システムを開発するための重要なステップとして位置づけられている。
論文 参考訳(メタデータ) (2025-11-29T15:46:13Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - AttnLRP: Attention-Aware Layer-Wise Relevance Propagation for Transformers [14.147646140595649]
大きな言語モデルは、バイアスのある予測と幻覚の傾向があります。
ブラックボックストランスモデルの完全性への忠実な貢献と計算効率の維持は未解決の課題である。
論文 参考訳(メタデータ) (2024-02-08T12:01:24Z) - Tensor Networks for Explainable Machine Learning in Cybersecurity [0.0]
マトリックス製品状態(MPS)に基づく教師なしクラスタリングアルゴリズムを開発した。
我々の調査は、MPSがオートエンコーダやGANといった従来のディープラーニングモデルと性能的に競合していることを証明している。
提案手法は,機能的確率,フォン・ノイマン・エントロピー,相互情報の抽出を自然に促進する。
論文 参考訳(メタデータ) (2023-12-29T22:35:45Z) - Evaluating Explainability in Machine Learning Predictions through Explainer-Agnostic Metrics [0.0]
我々は,モデル予測が説明できる範囲を定量化するために,6つの異なるモデルに依存しないメトリクスを開発した。
これらのメトリクスは、局所的な重要性、グローバルな重要性、代理予測など、モデル説明可能性のさまざまな側面を測定する。
分類と回帰タスクにおけるこれらのメトリクスの実用性を実証し、これらのメトリクスを公開のために既存のPythonパッケージに統合する。
論文 参考訳(メタデータ) (2023-02-23T15:28:36Z) - VCNet: A self-explaining model for realistic counterfactual generation [52.77024349608834]
事実的説明は、機械学習の決定を局所的に説明するための手法のクラスである。
本稿では,予測器と対実生成器を組み合わせたモデルアーキテクチャであるVCNet-Variational Counter Netを提案する。
我々はVCNetが予測を生成でき、また、別の最小化問題を解くことなく、反現実的な説明を生成できることを示した。
論文 参考訳(メタデータ) (2022-12-21T08:45:32Z) - Recurrence-Aware Long-Term Cognitive Network for Explainable Pattern
Classification [0.0]
構造化データの解釈可能なパターン分類のためのLCCNモデルを提案する。
本手法は, 決定過程における各特徴の関連性を定量化し, 説明を提供する独自のメカニズムを提供する。
解釈可能なモデルでは,最先端の白黒ボックスと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2021-07-07T18:14:50Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Input-independent Attention Weights Are Expressive Enough: A Study of
Attention in Self-supervised Audio Transformers [55.40032342541187]
我々は、自己教師付きアルゴリズムを用いたトランスフォーマーベースモデルを事前訓練し、下流タスクにおける特徴抽出器として扱う。
このアプローチでは、トレーニングと推論の両方において、通常の自己注意と同等のパフォーマンスで20%の時間を要することが示されています。
論文 参考訳(メタデータ) (2020-06-09T10:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。