論文の概要: Human-inspired Explanations for Vision Transformers and Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2408.02123v2
- Date: Tue, 20 Aug 2024 11:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-21 19:00:29.714633
- Title: Human-inspired Explanations for Vision Transformers and Convolutional Neural Networks
- Title(参考訳): 視覚変換器と畳み込みニューラルネットワークのためのヒューマンインスピレーションによる説明
- Authors: Mahadev Prasad Panda, Matteo Tiezzi, Martina Vilas, Gemma Roig, Bjoern M. Eskofier, Dario Zanca,
- Abstract要約: 本稿では,Deep Neural Networks のための新しいヒューマンインスパイアされた視覚的説明可能性 (XAI) 手法である Foveation-based Explanations (FovEx) を紹介する。
提案手法は変圧器(5つの指標のうち4つ)と畳み込みモデルの両方で最先端の性能を達成し,その汎用性を実証する。
- 参考スコア(独自算出の注目度): 8.659674736978555
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Foveation-based Explanations (FovEx), a novel human-inspired visual explainability (XAI) method for Deep Neural Networks. Our method achieves state-of-the-art performance on both transformer (on 4 out of 5 metrics) and convolutional models (on 3 out of 5 metrics), demonstrating its versatility. Furthermore, we show the alignment between the explanation map produced by FovEx and human gaze patterns (+14\% in NSS compared to RISE, +203\% in NSS compared to gradCAM), enhancing our confidence in FovEx's ability to close the interpretation gap between humans and machines.
- Abstract(参考訳): 本稿では,Deep Neural Networks のための新しいヒューマンインスパイアされた視覚的説明可能性 (XAI) 手法である Foveation-based Explanations (FovEx) を紹介する。
提案手法は変圧器(5つの指標のうち4つ)と畳み込みモデル(5つの指標のうち3つ)の両方で最先端の性能を達成し,その汎用性を実証する。
さらに,FovExが生成した説明地図と人間の視線パターン(RISEに比べて+14\%,NSSでは+203\%,gradCAMより+203\%)との整合性を示し,FovExの人間と機械間の解釈ギャップを埋める能力に対する信頼感を高めた。
関連論文リスト
- 4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration [31.111439909825627]
既存の手法は通常、単純な観察を入力としてデータセットのアクション分布をモデル化する。
カオスの源泉への入力に、4D情報を効果的に統合する新しいアプローチである4D-VLAを提案する。
我々のモデルは既存の手法を常に上回り、より強い空間的理解と適応性を示す。
論文 参考訳(メタデータ) (2025-06-27T14:09:29Z) - UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。
これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文 参考訳(メタデータ) (2025-04-02T22:17:30Z) - Attribution for Enhanced Explanation with Transferable Adversarial eXploration [10.802449518516209]
AttEXplore++は、転送可能な逆アタックメソッドを組み込むことで、属性を向上させる。
我々は、ImageNetデータセットを用いて、CNN(Inception-v3, ResNet-50, VGG16, vision transformer)を含む5つのモデルで実験を行う。
提案手法は,AttEXploreに比べて7.57%,32.62%の性能向上を実現している。
論文 参考訳(メタデータ) (2024-12-27T08:27:53Z) - Convolution goes higher-order: a biologically inspired mechanism empowers image classification [0.8999666725996975]
本稿では,複雑な非線形生物学的視覚処理に着想を得た画像分類手法を提案する。
我々のモデルは、Volterraのような畳み込み演算子の拡張を組み込み、乗法的相互作用をキャプチャする。
私たちの仕事は神経科学とディープラーニングを橋渡しし、より効果的で生物学的にインスパイアされたコンピュータビジョンモデルへの道筋を提供します。
論文 参考訳(メタデータ) (2024-12-09T18:33:09Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - FFHFlow: A Flow-based Variational Approach for Learning Diverse Dexterous Grasps with Shape-Aware Introspection [19.308304984645684]
マルチフィンガーハンドの多様なグリップを生成できる新しいモデルを提案する。
提案手法は, 高いベースラインに対する性能向上と実行時の効率向上を実現する。
また,現実世界の雑多な作業空間や密集した作業空間において,より多様性の高いオブジェクトを把握できることのメリットも示している。
論文 参考訳(メタデータ) (2024-07-21T13:33:08Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - ViTGaze: Gaze Following with Interaction Features in Vision Transformers [42.08842391756614]
本稿では, ViTGaze という新しい単一モダリティ・ギャラクシー・フレームワークを紹介する。
従来の手法とは対照的に、主に強力なエンコーダに基づく新しい視線追跡フレームワークを作成する。
本手法は,すべての単一モダリティ手法において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-03-19T14:45:17Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Human Trajectory Forecasting with Explainable Behavioral Uncertainty [63.62824628085961]
人間の軌道予測は人間の行動を理解し予測し、社会ロボットから自動運転車への応用を可能にする。
モデルフリー手法は予測精度が優れているが説明可能性に欠ける一方、モデルベース手法は説明可能性を提供するが、よく予測できない。
BNSP-SFMは,11種類の最先端手法と比較して,予測精度を最大50%向上することを示す。
論文 参考訳(メタデータ) (2023-07-04T16:45:21Z) - INTERACTION: A Generative XAI Framework for Natural Language Inference
Explanations [58.062003028768636]
現在のXAIアプローチは、ひとつの説明を提供することにのみ焦点をあてています。
本稿では、生成型XAIフレームワーク、InterACTION(explaIn aNd predicT thEn queRy with contextuAl CondiTional variational autO-eNcoder)を提案する。
提案するフレームワークは,説明とラベル予測の2つのステップ,および(ステップ2)異種証拠生成の2つのステップで説明を行う。
論文 参考訳(メタデータ) (2022-09-02T13:52:39Z) - Deriving Explanation of Deep Visual Saliency Models [6.808418311272862]
我々は,その深部ニューラルネットワークに基づくサリエンシモデルから説明可能なサリエンシモデルを導出する手法を開発した。
我々は2つの最先端のディープ・サリエンシ・モデル、すなわちUNISALとMSI-Netを解釈として検討する。
我々はまた、サリエンシ予測のためのクロスコンカレントマルチスケール残差ブロックベースネットワーク(CMRNet)という独自のディープサリエンシモデルを構築した。
論文 参考訳(メタデータ) (2021-09-08T12:22:32Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Feature Alignment for Approximated Reversibility in Neural Networks [0.0]
本稿では,ニューラルネットワークにおける近似可逆性を得る手法である特徴アライメントを導入する。
ニューラルネットワークをローカルにトレーニングし、計算メモリリソースを節約するために、このテクニックを修正できることが示される。
論文 参考訳(メタデータ) (2021-06-23T17:42:47Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Facial Emotion Recognition: State of the Art Performance on FER2013 [0.0]
FER2013データセットで最高の単一ネットワーク分類精度を達成しました。
我々のモデルは、追加のトレーニングデータを用いることなく、FER2013上で73.28 %の最先端のシングルネットワーク精度を実現する。
論文 参考訳(メタデータ) (2021-05-08T04:20:53Z) - E(n) Equivariant Graph Neural Networks [86.75170631724548]
本稿では,E(n)-Equivariant Graph Neural Networks (EGNNs) と呼ばれる回転,翻訳,反射,置換に等価なグラフニューラルネットワークを学習する新しいモデルを提案する。
既存の手法とは対照的に、私たちの仕事は計算的に高価な中間層における高階表現を必要としません。
論文 参考訳(メタデータ) (2021-02-19T10:25:33Z) - Explaining Convolutional Neural Networks through Attribution-Based Input
Sampling and Block-Wise Feature Aggregation [22.688772441351308]
クラスアクティベーションマッピングとランダムな入力サンプリングに基づく手法が広く普及している。
しかし、帰属法は、その説明力を制限した解像度とぼやけた説明地図を提供する。
本研究では、帰属型入力サンプリング技術に基づいて、モデルの複数の層から可視化マップを収集する。
また,CNNモデル全体に適用可能な層選択戦略を提案する。
論文 参考訳(メタデータ) (2020-10-01T20:27:30Z) - Deep Feature Consistent Variational Autoencoder [46.25741696270528]
本稿では,変分オートエンコーダ(VAE)構築のための新しい手法を提案する。
ピクセル・バイ・ピクセル・ロスを使用する代わりに、入力とVAEの出力の深い特徴一貫性を強制する。
また,本手法は,顔表現の意味情報をキャプチャする潜在ベクトルを生成できることを示す。
論文 参考訳(メタデータ) (2016-10-02T15:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。