Fugu-MT 論文翻訳(概要): What Helps -- and What Hurts: Bidirectional Explanations for Vision Transformers

論文の概要: What Helps -- and What Hurts: Bidirectional Explanations for Vision Transformers

arxiv url: http://arxiv.org/abs/2603.01605v1
Date: Mon, 02 Mar 2026 08:36:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.770724
Title: What Helps -- and What Hurts: Bidirectional Explanations for Vision Transformers
Title（参考訳）: 視覚変換器の双方向説明
Authors: Qin Su, Tie Luo,
Abstract要約: 視覚変換器(ViT)は視覚認識において高い性能を発揮するが、その決定はいまだに解釈が難しい。モデル予測に対する支持的(肯定的)と抑圧的(否定的)の両方のコントリビューションをキャプチャする双方向クラスアクティベーションマッピング手法であるBiCAMを提案する。
参考スコア（独自算出の注目度）: 3.4448178503887816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Transformers (ViTs) achieve strong performance in visual recognition, yet their decision-making remains difficult to interpret. We propose BiCAM, a bidirectional class activation mapping method that captures both supportive (positive) and suppressive (negative) contributions to model predictions. Unlike prior CAM-based approaches that discard negative signals, BiCAM preserves signed attributions to produce more complete and contrastive explanations. BiCAM further introduces a Positive-to-Negative Ratio (PNR) that summarizes attribution balance and enables lightweight detection of adversarial examples without retraining. Across ImageNet, VOC, and COCO, BiCAM improves localization and faithfulness while remaining computationally efficient. It generalizes to multiple ViT variants, including DeiT and Swin. These results suggest the importance of modeling both supportive and suppressive evidence for interpreting transformer-based vision models.
Abstract（参考訳）: 視覚変換器(ViT)は視覚認識において高い性能を発揮するが、その決定はいまだに解釈が難しい。モデル予測に対する支持的(肯定的)と抑圧的(否定的)の両方のコントリビューションをキャプチャする双方向クラスアクティベーションマッピング手法であるBiCAMを提案する。負の信号を捨てる従来のCAMベースのアプローチとは異なり、BiCAMは署名された属性を保存し、より完全で対照的な説明を生成する。 BiCAMはさらに、帰属バランスを要約したPositive-to-Negative Ratio (PNR)を導入し、再トレーニングせずに敵のサンプルを軽量に検出できる。 ImageNet、VOC、COCO全体で、BiCAMは、計算効率を保ちながら、ローカライゼーションと忠実性を改善する。これは、DeiTやSwinなど、複数のViTに一般化されている。これらの結果は、トランスフォーマーに基づく視覚モデルを理解する上で、支持的かつ抑制的な証拠の両方をモデル化することが重要であることを示唆している。

関連論文リスト

Cross-Subject Mind Decoding from Inaccurate Representations [42.19569985029642]
正確なデコード表現予測のためのBi Autoencoder Intertwiningフレームワークを提案する。本手法は,定性評価と定量的評価の両方において,ベンチマークデータセットの最先端手法よりも優れている。
論文参考訳（メタデータ） (2025-07-25T08:45:02Z)
Boosting the Local Invariance for Better Adversarial Transferability [4.75067406339309]
トランスファーベースの攻撃は、現実世界のアプリケーションに重大な脅威をもたらす。 LI-Boost (Local Invariance Boosting approach) と呼ばれる一般対向転送可能性向上手法を提案する。標準のImageNetデータセットの実験では、LI-Boostがさまざまなタイプの転送ベースの攻撃を著しく強化できることが示された。
論文参考訳（メタデータ） (2025-03-08T09:44:45Z)
Forgery-aware Adaptive Transformer for Generalizable Synthetic Image Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文参考訳（メタデータ） (2023-12-27T17:36:32Z)
Learning Robust Representations via Bidirectional Transition for Visual Reinforcement Learning [49.23256535551141]
本稿では, 環境遷移を前方と後方の両方で双方向に予測し, 信頼性のある表現を抽出するBidirectional Transition (BiT) モデルを提案する。本モデルでは,DeepMind Controlスイートの2つの設定に対して,競合一般化性能とサンプル効率を示す。
論文参考訳（メタデータ） (2023-12-04T14:19:36Z)
ViT-ReciproCAM: Gradient and Attention-Free Visual Explanations for Vision Transformer [0.0]
視覚変換器(ViT)は、画像分類や物体検出などの様々なコンピュータビジョンタスクにおいて優れた性能を示している。 ViTの最先端ソリューションは、クラスアテンション・ロールアウトと関連技術に依存している。本稿では,注目行列や勾配情報を必要としないViT-ReciproCAMと呼ばれる,新しい勾配のない視覚的説明手法を提案する。
論文参考訳（メタデータ） (2023-10-04T05:09:50Z)
Interpretability-Aware Vision Transformer [12.406960223371959]
視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。そこで本研究では,モデル解釈可能性を高める新たなトレーニング手法を提案する。 IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
論文参考訳（メタデータ） (2023-09-14T21:50:49Z)
UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文参考訳（メタデータ） (2022-10-23T15:24:47Z)
Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文参考訳（メタデータ） (2022-04-26T08:22:34Z)
Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文参考訳（メタデータ） (2022-03-11T13:48:11Z)
On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文参考訳（メタデータ） (2021-03-29T14:48:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。