論文の概要: FovEx: Human-inspired Explanations for Vision Transformers and Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2408.02123v1
- Date: Sun, 4 Aug 2024 19:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 15:05:52.026793
- Title: FovEx: Human-inspired Explanations for Vision Transformers and Convolutional Neural Networks
- Title(参考訳): FovEx: ビジョントランスフォーマーと畳み込みニューラルネットワークのための人間にインスパイアされた説明
- Authors: Mahadev Prasad Panda, Matteo Tiezzi, Martina Vilas, Gemma Roig, Bjoern M. Eskofier, Dario Zanca,
- Abstract要約: 人間の視覚に触発された新しいXAI手法であるFovEx(Floveation-based Explanations)を紹介する。
本手法はトランスモデルと畳み込みモデルの両方で最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 8.659674736978555
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Explainability in artificial intelligence (XAI) remains a crucial aspect for fostering trust and understanding in machine learning models. Current visual explanation techniques, such as gradient-based or class-activation-based methods, often exhibit a strong dependence on specific model architectures. Conversely, perturbation-based methods, despite being model-agnostic, are computationally expensive as they require evaluating models on a large number of forward passes. In this work, we introduce Foveation-based Explanations (FovEx), a novel XAI method inspired by human vision. FovEx seamlessly integrates biologically inspired perturbations by iteratively creating foveated renderings of the image and combines them with gradient-based visual explorations to determine locations of interest efficiently. These locations are selected to maximize the performance of the model to be explained with respect to the downstream task and then combined to generate an attribution map. We provide a thorough evaluation with qualitative and quantitative assessments on established benchmarks. Our method achieves state-of-the-art performance on both transformers (on 4 out of 5 metrics) and convolutional models (on 3 out of 5 metrics), demonstrating its versatility among various architectures. Furthermore, we show the alignment between the explanation map produced by FovEx and human gaze patterns (+14\% in NSS compared to RISE, +203\% in NSS compared to GradCAM). This comparison enhances our confidence in FovEx's ability to close the interpretation gap between humans and machines.
- Abstract(参考訳): 人工知能(XAI)の説明可能性は、マシンラーニングモデルにおける信頼と理解を促進する上で、依然として重要な側面である。
勾配ベースやクラスアクティベーションベースの手法のような現在の視覚的説明技法は、しばしば特定のモデルアーキテクチャに強い依存を示す。
逆に、摂動に基づく手法は、モデルに依存しないにもかかわらず、多くの前方パスでモデルを評価する必要があるため、計算コストがかかる。
本研究では,人間の視覚に触発された新しいXAI手法であるFoveation-based Explanations (FovEx)を紹介する。
FovExは、生物学的にインスピレーションを受けた摂動をシームレスに統合し、画像の織り込みレンダリングを反復的に作成し、勾配に基づく視覚的な探索と組み合わせて、興味のある場所を効率的に決定する。
これらの場所は、下流のタスクに関して説明されるモデルの性能を最大化するために選択され、その後に組み合わせて属性マップを生成する。
確立したベンチマークの質的および定量的評価を徹底的に行う。
提案手法は,変圧器および畳み込みモデル(5つ中4つ),および畳み込みモデル(5つ中3つ)上での最先端性能を実現し,各種アーキテクチャの汎用性を実証する。
さらに,FovExが生成した説明地図と人間の視線パターンのアライメントを示す (NSSでは+14\%, RISEでは+203\%, GradCAMでは+203\%)。
この比較により、人間と機械の間の解釈ギャップを埋めるFovExの能力に対する信頼性が向上する。
関連論文リスト
- ViTGaze: Gaze Following with Interaction Features in Vision Transformers [42.08842391756614]
本稿では, ViTGaze という新しい単一モダリティ・ギャラクシー・フレームワークを紹介する。
従来の手法とは対照的に、主に強力なエンコーダに基づく新しい視線追跡フレームワークを作成する。
本手法は,すべての単一モダリティ手法において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-03-19T14:45:17Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Human Trajectory Forecasting with Explainable Behavioral Uncertainty [63.62824628085961]
人間の軌道予測は人間の行動を理解し予測し、社会ロボットから自動運転車への応用を可能にする。
モデルフリー手法は予測精度が優れているが説明可能性に欠ける一方、モデルベース手法は説明可能性を提供するが、よく予測できない。
BNSP-SFMは,11種類の最先端手法と比較して,予測精度を最大50%向上することを示す。
論文 参考訳(メタデータ) (2023-07-04T16:45:21Z) - INTERACTION: A Generative XAI Framework for Natural Language Inference
Explanations [58.062003028768636]
現在のXAIアプローチは、ひとつの説明を提供することにのみ焦点をあてています。
本稿では、生成型XAIフレームワーク、InterACTION(explaIn aNd predicT thEn queRy with contextuAl CondiTional variational autO-eNcoder)を提案する。
提案するフレームワークは,説明とラベル予測の2つのステップ,および(ステップ2)異種証拠生成の2つのステップで説明を行う。
論文 参考訳(メタデータ) (2022-09-02T13:52:39Z) - Deriving Explanation of Deep Visual Saliency Models [6.808418311272862]
我々は,その深部ニューラルネットワークに基づくサリエンシモデルから説明可能なサリエンシモデルを導出する手法を開発した。
我々は2つの最先端のディープ・サリエンシ・モデル、すなわちUNISALとMSI-Netを解釈として検討する。
我々はまた、サリエンシ予測のためのクロスコンカレントマルチスケール残差ブロックベースネットワーク(CMRNet)という独自のディープサリエンシモデルを構築した。
論文 参考訳(メタデータ) (2021-09-08T12:22:32Z) - Feature Alignment for Approximated Reversibility in Neural Networks [0.0]
本稿では,ニューラルネットワークにおける近似可逆性を得る手法である特徴アライメントを導入する。
ニューラルネットワークをローカルにトレーニングし、計算メモリリソースを節約するために、このテクニックを修正できることが示される。
論文 参考訳(メタデータ) (2021-06-23T17:42:47Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Facial Emotion Recognition: State of the Art Performance on FER2013 [0.0]
FER2013データセットで最高の単一ネットワーク分類精度を達成しました。
我々のモデルは、追加のトレーニングデータを用いることなく、FER2013上で73.28 %の最先端のシングルネットワーク精度を実現する。
論文 参考訳(メタデータ) (2021-05-08T04:20:53Z) - E(n) Equivariant Graph Neural Networks [86.75170631724548]
本稿では,E(n)-Equivariant Graph Neural Networks (EGNNs) と呼ばれる回転,翻訳,反射,置換に等価なグラフニューラルネットワークを学習する新しいモデルを提案する。
既存の手法とは対照的に、私たちの仕事は計算的に高価な中間層における高階表現を必要としません。
論文 参考訳(メタデータ) (2021-02-19T10:25:33Z) - Deep Feature Consistent Variational Autoencoder [46.25741696270528]
本稿では,変分オートエンコーダ(VAE)構築のための新しい手法を提案する。
ピクセル・バイ・ピクセル・ロスを使用する代わりに、入力とVAEの出力の深い特徴一貫性を強制する。
また,本手法は,顔表現の意味情報をキャプチャする潜在ベクトルを生成できることを示す。
論文 参考訳(メタデータ) (2016-10-02T15:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。