論文の概要: Statistical Test for Attention Map in Vision Transformer
- arxiv url: http://arxiv.org/abs/2401.08169v2
- Date: Fri, 19 Jan 2024 07:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 18:05:19.270918
- Title: Statistical Test for Attention Map in Vision Transformer
- Title(参考訳): ビジョントランスにおけるアテンションマップの統計的テスト
- Authors: Tomohiro Shiraishi, Daiki Miwa, Teruyuki Katsuoka, Vo Nguyen Le Duy,
Kouichi Taji, Ichiro Takeuchi
- Abstract要約: Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて例外的な性能を示す。
本稿では,ViTの注意を統計的に検証し,その注意を信頼性のある定量的証拠指標として利用することを提案する。
脳画像診断への数値実験と応用を通して,提案手法の有効性と有効性を示す。
- 参考スコア(独自算出の注目度): 19.927066428010782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision Transformer (ViT) demonstrates exceptional performance in various
computer vision tasks. Attention is crucial for ViT to capture complex
wide-ranging relationships among image patches, allowing the model to weigh the
importance of image patches and aiding our understanding of the decision-making
process. However, when utilizing the attention of ViT as evidence in
high-stakes decision-making tasks such as medical diagnostics, a challenge
arises due to the potential of attention mechanisms erroneously focusing on
irrelevant regions. In this study, we propose a statistical test for ViT's
attentions, enabling us to use the attentions as reliable quantitative evidence
indicators for ViT's decision-making with a rigorously controlled error rate.
Using the framework called selective inference, we quantify the statistical
significance of attentions in the form of p-values, which enables the
theoretically grounded quantification of the false positive detection
probability of attentions. We demonstrate the validity and the effectiveness of
the proposed method through numerical experiments and applications to brain
image diagnoses.
- Abstract(参考訳): Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて例外的な性能を示す。
ViTは、画像パッチ間の複雑な広範関係をキャプチャし、画像パッチの重要性を考慮し、意思決定プロセスの理解を支援することが重要である。
しかし,ViTの注意を医療診断などの高い意思決定課題の証拠として活用する場合,非関連領域に誤って注目する注意機構の可能性から課題が生じる。
本研究では,ViTの注意度を統計的に評価し,その注意度を精度の高い定量的な指標として,厳密に制御された誤り率を用いて評価する。
選択推論と呼ばれるフレームワークを用いて,p-値の形で注意の統計的意義を定量化し,注意の偽陽性検出確率を理論的に定量化する。
脳画像診断への数値実験と応用を通して,提案手法の有効性と有効性を示す。
関連論文リスト
- Statistical Test on Diffusion Model-based Anomaly Detection by Selective Inference [19.927066428010782]
拡散モデルを用いて医療画像中の異常領域を検出する課題に対処する。
本稿では,検出された異常の信頼性を定量化する統計的手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T02:32:45Z) - Sequential Attention Source Identification Based on Feature
Representation [88.05527934953311]
本稿では,テンポラルシーケンスに基づくグラフ注意源同定(TGASI)と呼ばれるシーケンス・ツー・シーケンス・ベースのローカライズ・フレームワークを提案する。
なお、このインダクティブラーニングのアイデアは、TGASIが他の事前の知識を知らずに新しいシナリオのソースを検出できることを保証する。
論文 参考訳(メタデータ) (2023-06-28T03:00:28Z) - Towards Evaluating Explanations of Vision Transformers for Medical
Imaging [7.812073412066698]
Vision Transformer (ViT)は、画像分類のための畳み込みニューラルネットワークに代わる有望な代替手段である。
本稿では胸部X線画像の分類に応用したViTにおける様々な解釈手法の性能について検討する。
論文 参考訳(メタデータ) (2023-04-12T19:37:28Z) - Boosting Cross-task Transferability of Adversarial Patches with Visual
Relations [4.694536172504848]
本稿では,VRAPと呼ばれる,視覚関係に基づくクロスタスク・アダクティブ・パッチ生成手法を提案する。
VRAPはシーングラフを使用して、オブジェクト認識に基づく偽装と述語に基づく関係の排除を組み合わせている。
実験の結果,VRAPは多様な視覚的推論タスクにおけるブラックボックス転送可能性において,従来の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-11T11:43:57Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - Improving Interpretability of Deep Neural Networks in Medical Diagnosis
by Investigating the Individual Units [24.761080054980713]
入力画像における重要な要素を可視化することにより,最近の帰属技術の有効性を実証し,診断の意思決定を説明する。
アンマキングマシンインテリジェンスの分析は、診断決定における説明可能性の必要性を示している。
論文 参考訳(メタデータ) (2021-07-19T11:49:31Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z) - Intact-VAE: Estimating Treatment Effects under Unobserved Confounding [21.33872753593482]
Intact-VAEは、治療効果の特定に十分である予後スコアに動機づけられた新しいバリエーションの可変オートエンコーダ(VAE)である。
理論的には,ある条件下では治療効果をモデルによって同定し,さらに,モデルの識別性に基づいて,vaeは治療群に対してバランスの取れた一貫した推定器であることを示した。
論文 参考訳(メタデータ) (2021-01-17T13:03:44Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。