論文の概要: A Close Look at Decomposition-based XAI-Methods for Transformer Language Models
- arxiv url: http://arxiv.org/abs/2502.15886v1
- Date: Fri, 21 Feb 2025 19:09:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:40.710830
- Title: A Close Look at Decomposition-based XAI-Methods for Transformer Language Models
- Title(参考訳): 変圧器言語モデルのための分解に基づくXAI手法の概観
- Authors: Leila Arras, Bruno Puri, Patrick Kahardipraja, Sebastian Lapuschkin, Wojciech Samek,
- Abstract要約: XAIアトリビューション手法は近年,トランスフォーマーアーキテクチャのために提案されている。
我々は最近提案された AttnLRP 変種を含むALTI-Logit 法と LRP 法を比較し拡張する。
言語モデルやコードに対する属性を評価するために、慎重に構築されたベンチマークデータセットを公開しています。
- 参考スコア(独自算出の注目度): 12.51070801823624
- License:
- Abstract: Various XAI attribution methods have been recently proposed for the transformer architecture, allowing for insights into the decision-making process of large language models by assigning importance scores to input tokens and intermediate representations. One class of methods that seems very promising in this direction includes decomposition-based approaches, i.e., XAI-methods that redistribute the model's prediction logit through the network, as this value is directly related to the prediction. In the previous literature we note though that two prominent methods of this category, namely ALTI-Logit and LRP, have not yet been analyzed in juxtaposition and hence we propose to close this gap by conducting a careful quantitative evaluation w.r.t. ground truth annotations on a subject-verb agreement task, as well as various qualitative inspections, using BERT, GPT-2 and LLaMA-3 as a testbed. Along the way we compare and extend the ALTI-Logit and LRP methods, including the recently proposed AttnLRP variant, from an algorithmic and implementation perspective. We further incorporate in our benchmark two widely-used gradient-based attribution techniques. Finally, we make our carefullly constructed benchmark dataset for evaluating attributions on language models, as well as our code, publicly available in order to foster evaluation of XAI-methods on a well-defined common ground.
- Abstract(参考訳): 近年,入力トークンや中間表現に重要スコアを割り当てることで,大規模言語モデルの意思決定過程を把握できるトランスフォーマーアーキテクチャとして,様々なXAI属性手法が提案されている。
この方向に非常に有望と思われる手法の1つのクラスは、分解に基づくアプローチ(XAI-method)、すなわち、この値が予測に直接関係していることから、ネットワークを通してモデルの予測ロジットを再分配する手法である。
従来の文献では, ALTI-Logit と LRP の2つの顕著な手法が未解析であり, 提案手法は, 主観的合意タスクに対して, 厳密な定量評価を行うことにより, BERT, GPT-2, LLaMA-3 を試験台として, 様々な定性検査を行うことにより, このギャップを埋めることが提案されている。
アルゴリズムと実装の観点から、最近提案された AttnLRP 変種を含むALTI-Logit と LRP のメソッドを比較して拡張する。
さらに、このベンチマークには、広く使われている勾配に基づく属性技術が組み込まれています。
最後に,言語モデルに対する属性を評価するための,慎重に構築されたベンチマークデータセットと,明確に定義された共通基盤上でのXAIメソッドの評価を促進するために公開されているコードを作成する。
関連論文リスト
- NormXLogit: The Head-on-Top Never Lies [15.215985417763472]
トランスフォーマーアーキテクチャは、大きな言語モデルを構築する上で主要な選択肢となっている。
個々の入力トークンの意義を評価するため,NormXLogitと呼ばれる新しい手法を提案する。
提案手法は,忠実度の観点から,既存の勾配法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-11-25T10:12:27Z) - Interpreting Object-level Foundation Models via Visual Precision Search [53.807678972967224]
より少ない領域で正確な属性マップを生成する視覚的精度探索法を提案する。
本手法は,マルチモーダル融合による帰属問題を克服するために,内部モデルパラメータをバイパスする。
提案手法は,複数の評価指標にまたがる既存の手法を超越して,視覚的接地や物体検出タスクにおける障害を解釈することができる。
論文 参考訳(メタデータ) (2024-11-25T08:54:54Z) - Deep Model Interpretation with Limited Data : A Coreset-based Approach [0.810304644344495]
本稿では,コアセット選択手法を用いて,大規模データセットの代表的なサブセットを抽出する,コアセットに基づく解釈フレームワークを提案する。
本稿では,モデル解釈手法のロバスト性を評価するための類似性に基づく評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:07:24Z) - EXACT: Towards a platform for empirically benchmarking Machine Learning model explanation methods [1.6383837447674294]
本稿では、初期ベンチマークプラットフォームにおいて、様々なベンチマークデータセットと新しいパフォーマンス指標をまとめる。
我々のデータセットには、クラス条件の特徴に対する真実の説明が組み込まれています。
このプラットフォームは、それらが生成する説明の品質において、ポストホックなXAIメソッドのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-05-20T14:16:06Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - Precise Benchmarking of Explainable AI Attribution Methods [0.0]
本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。
提案手法は, 基礎的真理の説明を伴う合成分類モデルから成り立っている。
実験の結果, Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-08-06T17:03:32Z) - Open-Domain Text Evaluation via Contrastive Distribution Methods [75.59039812868681]
本稿では,Contrastive Distribution Methodsと呼ばれるオープンドメインテキスト生成手法を提案する。
マルチターン対話におけるコヒーレンス評価と制御可能な生成におけるコヒーレンス評価の実験により,CDMの優位性は人間の判断と相関していることが示された。
論文 参考訳(メタデータ) (2023-06-20T20:37:54Z) - Local and Global Context-Based Pairwise Models for Sentence Ordering [0.0]
本稿では,局所的およびグローバルな文脈に基づくペアワイズ・オーダリング・ストラテジーの集合を提示する。
提案手法は,この段落の豊富なグローバルな文脈情報を用いて,ペアの順序を予測する。
提案した2つのデコード戦略の解析は、ペアワイズモデルにおけるエラーの伝播をよりよく説明するのに役立つ。
論文 参考訳(メタデータ) (2021-10-08T17:57:59Z) - Learning Gaussian Graphical Models with Latent Confounders [74.72998362041088]
我々は、グラフィカルモデルにおける推論のための2つの戦略を、潜伏した共同創設者と比較し、対比する。
これら2つのアプローチは、類似した目標を持っているが、それらは共起に関する異なる仮定によって動機付けられている。
これら2つのアプローチの強みを組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-14T00:53:03Z) - Investigating Methods to Improve Language Model Integration for
Attention-based Encoder-Decoder ASR Models [107.86965028729517]
注意ベースのエンコーダデコーダ(AED)モデルは、トレーニング転写から暗黙的な内部言語モデル(ILM)を学ぶ。
AEDモデルから直接ILMを推定する新しい手法をいくつか提案する。
論文 参考訳(メタデータ) (2021-04-12T15:16:03Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。