論文の概要: There is More to Attention: Statistical Filtering Enhances Explanations in Vision Transformers
- arxiv url: http://arxiv.org/abs/2510.06070v1
- Date: Tue, 07 Oct 2025 15:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.337757
- Title: There is More to Attention: Statistical Filtering Enhances Explanations in Vision Transformers
- Title(参考訳): 注意すべきこと:統計的フィルタリングは視覚変換器の解説を促進する
- Authors: Meghna P Ayyar, Jenny Benois-Pineau, Akka Zemmari,
- Abstract要約: 我々は、注意が適切にフィルタリングされたときに、価値があり、解釈可能な信号であり続けていると論じる。
そこで本研究では,CNN で最初に提案されたアテンションマップと統計的フィルタリングを組み合わせた手法を提案する。
私たちは、差別的な説明をもたらすクラス固有の変種でアプローチを拡張します。
- 参考スコア(独自算出の注目度): 2.8019744694531554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable AI (XAI) has become increasingly important with the rise of large transformer models, yet many explanation methods designed for CNNs transfer poorly to Vision Transformers (ViTs). Existing ViT explanations often rely on attention weights, which tend to yield noisy maps as they capture token-to-token interactions within each layer.While attribution methods incorporating MLP blocks have been proposed, we argue that attention remains a valuable and interpretable signal when properly filtered. We propose a method that combines attention maps with a statistical filtering, initially proposed for CNNs, to remove noisy or uninformative patterns and produce more faithful explanations. We further extend our approach with a class-specific variant that yields discriminative explanations. Evaluation against popular state-of-the-art methods demonstrates that our approach produces sharper and more interpretable maps. In addition to perturbation-based faithfulness metrics, we incorporate human gaze data to assess alignment with human perception, arguing that human interpretability remains essential for XAI. Across multiple datasets, our approach consistently outperforms or is comparable to the SOTA methods while remaining efficient and human plausible.
- Abstract(参考訳): 説明可能なAI(XAI)は、大きなトランスフォーマーモデルの台頭によってますます重要になっているが、CNN用に設計された多くの説明手法は、ビジョントランスフォーマー(ViT)に貧弱に移行している。
既存のViT説明は、各層内のトークンとトークンの相互作用を捉える際にノイズの多いマップを生成する傾向にある注意重みに依存することが多いが、MLPブロックを組み込んだ属性法は提案されているが、適切なフィルタリングを行うと、注意が重要かつ解釈可能な信号として残ると論じている。
注意マップとCNNで最初に提案された統計的フィルタリングを組み合わせることで,雑音や不定形パターンを除去し,より忠実な説明を行う手法を提案する。
我々はさらに、差別的な説明をもたらすクラス固有の変種を用いて、我々のアプローチを拡張した。
一般的な最先端手法に対する評価は、我々のアプローチがよりシャープで解釈可能な地図を生成することを示す。
摂動に基づく忠実度測定に加えて、人間の視線データを組み込んで人間の知覚との整合性を評価する。
複数のデータセットにまたがって、我々のアプローチは、効率的で人間らしいままで、一貫してSOTA法に匹敵する、あるいは同等である。
関連論文リスト
- AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language Models [78.08374249341514]
AI生成コンテンツ(AIGC)の急速な発展は、誤情報を拡散するAIGIの誤用につながった。
大規模で包括的なデータセットであるHolmes-Setを導入し、画像がAI生成されているかどうかを解説したインストラクションチューニングデータセットを含む。
本研究は,MLLMの構造化説明と品質管理によるデータ生成を効率化する,Multi-Expert Juryと呼ばれる効率的なデータアノテーション手法を提案する。
さらに,視覚専門家による事前学習,教師付き微調整,直接選好最適化を含む3段階学習フレームワークであるHolmes Pipelineを提案する。
論文 参考訳(メタデータ) (2025-07-03T14:26:31Z) - A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。
具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。
これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文 参考訳(メタデータ) (2025-04-09T11:46:41Z) - Noise-Free Explanation for Driving Action Prediction [11.330363757618379]
我々は, この欠陥を解消するための, 実装が容易だが効果的な方法を提案する: 平滑な騒音ノルム注意(SNNA)
変換された値ベクトルのノルムで注意を重み付け、アテンション勾配でラベル固有の信号を誘導し、入力摂動をランダムにサンプリングし、対応する勾配を平均化し、ノイズのない属性を生成する。
定性的かつ定量的な評価結果は、より明確な視覚的説明図を作成し、入力画素の重要度をランク付けする他のSOTA注意に基づく説明可能な方法と比較して、SNNAの優位性を示している。
論文 参考訳(メタデータ) (2024-07-08T19:21:24Z) - AttnLRP: Attention-Aware Layer-Wise Relevance Propagation for Transformers [14.147646140595649]
大きな言語モデルは、バイアスのある予測と幻覚の傾向があります。
ブラックボックストランスモデルの完全性への忠実な貢献と計算効率の維持は未解決の課題である。
論文 参考訳(メタデータ) (2024-02-08T12:01:24Z) - Explainable Multi-Camera 3D Object Detection with Transformer-Based
Saliency Maps [0.0]
ビジョントランスフォーマー(ViT)は、3Dオブジェクト検出を含む様々なコンピュータビジョンタスクにおいて最先端の結果を得た。
エンドツーエンドの実装により、ViTの説明がより簡単になるため、安全クリティカルなアプリケーションにViTをデプロイする上での課題になる可能性がある。
本稿では,3次元物体検出に使用される複数のカメラ入力を持つDETRライクなViTのサリエンシマップを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:03:12Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - On the explainable properties of 1-Lipschitz Neural Networks: An Optimal
Transport Perspective [0.0]
従来のニューラルネットワークによって生成されたサリエンシマップは、しばしばノイズが多く、限られた洞察を提供する。
本稿では, 1-Lipschitz ニューラルネットワークのSaliency Maps が望ましいXAI特性を示すことを示す。
また、これらの地図は、ImageNet上の人間の説明と前例のないほどよく一致していることを示す。
論文 参考訳(メタデータ) (2022-06-14T13:49:08Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。