論文の概要: Evaluating Explainable AI Attribution Methods in Neural Machine Translation via Attention-Guided Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2603.11342v1
- Date: Wed, 11 Mar 2026 22:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.670835
- Title: Evaluating Explainable AI Attribution Methods in Neural Machine Translation via Attention-Guided Knowledge Distillation
- Title(参考訳): 意識誘導型知識蒸留によるニューラルネットワーク翻訳における説明可能なAI属性法の評価
- Authors: Aria Nourbakhsh, Salima Lamsiyah, Adelaide Danilov, Christoph Schommer,
- Abstract要約: 本稿では,Seq2seqモデルにおける説明可能性の評価手法について紹介する。
教師由来の帰属マップを構造化側信号として利用し,学生モデルの指導を行う。
また,教師の属性マップを再構築する属性変換器も導入した。
- 参考スコア(独自算出の注目度): 1.373282478189168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of the attribution of input features to the output of neural network models is an active area of research. While numerous Explainable AI (XAI) techniques have been proposed to interpret these models, the systematic and automated evaluation of these methods in sequence-to-sequence (seq2seq) models is less explored. This paper introduces a new approach for evaluating explainability methods in transformer-based seq2seq models. We use teacher-derived attribution maps as a structured side signal to guide a student model, and quantify the utility of different attribution methods through the student's ability to simulate targets. Using the Inseq library, we extract attribution scores over source-target sequence pairs and inject these scores into the attention mechanism of a student transformer model under four composition operators (addition, multiplication, averaging, and replacement). Across three language pairs (de-en, fr-en, ar-en) and attributions from Marian-MT and mBART models, Attention, Value Zeroing, and Layer Gradient $\times$ Activation consistently yield the largest gains in BLEU (and corresponding improvements in chrF) relative to baselines. In contrast, other gradient-based methods (Saliency, Integrated Gradients, DeepLIFT, Input $\times$ Gradient, GradientShap) lead to smaller and less consistent improvements. These results suggest that different attribution methods capture distinct signals and that attention-derived attributions better capture alignment between source and target representations in seq2seq models. Finally, we introduce an Attributor transformer that, given a source-target pair, learns to reconstruct the teacher's attribution map. Our findings demonstrate that the more accurately the Attributor can reproduce attribution maps, the more useful an injection of those maps is for the downstream task. The source code can be found on GitHub.
- Abstract(参考訳): ニューラルネットワークモデルの出力に対する入力特徴の寄与に関する研究は、研究の活発な領域である。
これらのモデルを解釈するために、多くの説明可能なAI(XAI)技術が提案されているが、シーケンシャル・ツー・シーケンス(seq2seq)モデルにおけるこれらの手法の体系的および自動評価はあまり研究されていない。
本稿では,変圧器を用いたSeq2seqモデルにおける説明可能性の評価手法を提案する。
教師由来の帰属地図を構造化側信号として用いて、学生モデルを誘導し、学生の目標をシミュレートする能力を通じて、様々な帰属方法の有用性を定量化する。
Inseqライブラリを用いて、ソースとターゲットのシーケンスペア上で属性スコアを抽出し、4つの合成演算子(加算、乗算、平均化、置換)の下で学生トランスフォーマーモデルの注意機構にこれらのスコアを注入する。
3つの言語ペア(de-en、fr-en、ar-en)と、Marian-MTおよびmBARTモデル、注意、値ゼロ化、レイヤグラディエント$\times$ Activationの属性は、ベースラインに対するBLEU(およびそれに対応するchrFの改善)において一貫して最大の利益をもたらす。
対照的に、他の勾配ベースのメソッド(Saliency、Integrated Gradients、DeepLIFT、Input $\times$ Gradient、GradientShap)は、小さく、一貫性の低い改善をもたらす。
これらの結果は、異なる属性法が異なる信号をキャプチャし、セック2セックモデルにおけるソースとターゲットの表現のアライメントをよりよく捉えることを示唆している。
最後に,教師の属性マップの再構築を学習する属性変換器を提案する。
その結果、属性マップを正確に再現できるほど、これらのマップの注入は下流タスクに役立ちます。
ソースコードはGitHubにある。
関連論文リスト
- Foundation Models in Dermatopathology: Skin Tissue Classification [0.05397680436511065]
本研究では,UNIとVirchhow2の2つの基礎モデルの性能を,全スライディング画像の分類のための特徴抽出器として評価する。
平均アグリゲーション戦略を用いて, パッチレベルの埋め込みをスライドレベルの特徴に集約した。
その結果、Virchow2を用いて抽出したパッチレベルの特徴は、ほとんどのスライドレベルの分類器でUNIを介して抽出した特徴よりも優れていた。
論文 参考訳(メタデータ) (2025-10-24T17:21:43Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Explainable Learning with Gaussian Processes [23.796560256071473]
我々は、モデル不確実性の下で属性を定義するために原則化されたアプローチをとっており、既存の文献を拡張している。
GPRは非常に柔軟で非パラメトリックなアプローチであるが、特徴属性に対する解釈可能でクローズドな表現を導出できることを示す。
また、適用すれば、GPR属性の正確な式は、現在使われている近似よりも正確で計算コストが低いことも示している。
論文 参考訳(メタデータ) (2024-03-11T18:03:02Z) - Minusformer: Improving Time Series Forecasting by Progressively Learning Residuals [14.741951369068877]
ユビキタス時系列(TS)予測モデルでは,過度なオーバーフィッティングが生じる傾向にある。
本稿では,深層的なブースティング・アンサンブル学習手法である二重ストリーム・サブトラクション機構を提案する。
提案手法は既存の最先端手法よりも優れており,各データセットの平均性能は11.9%向上した。
論文 参考訳(メタデータ) (2024-02-04T03:54:31Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Generalizing Backpropagation for Gradient-Based Interpretability [103.2998254573497]
モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
論文 参考訳(メタデータ) (2023-07-06T15:19:53Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Eigen-CAM: Class Activation Map using Principal Components [1.2691047660244335]
この論文は、解釈可能で堅牢で透明なモデルに対する需要の増加に対応するために、従来の考え方に基づいている。
提案したEigen-CAMは、畳み込み層から学習した特徴/表現の基本的なコンポーネントを計算し、視覚化する。
論文 参考訳(メタデータ) (2020-08-01T17:14:13Z) - Depthwise Discrete Representation Learning [2.728575246952532]
離散表現の学習の最近の進歩は、言語、オーディオ、ビジョンを含むタスクにおいて、アート結果の状態を導いている。
単語、音素、形状などの潜時要因は連続ではなく離散潜時変数で表される。
ベクトル量子化変分オートエンコーダ(VQVAE)は、複数の領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2020-04-11T18:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。