論文の概要: Interpretability-Aware Vision Transformer
- arxiv url: http://arxiv.org/abs/2309.08035v1
- Date: Thu, 14 Sep 2023 21:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:47:36.287576
- Title: Interpretability-Aware Vision Transformer
- Title(参考訳): 解釈性を考慮した視覚トランスフォーマ
- Authors: Yao Qiang, Chengyin Li, Prashant Khanduri and Dongxiao Zhu
- Abstract要約: 視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。
そこで本研究では,モデル解釈可能性を高める新たなトレーニング手法を提案する。
IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
- 参考スコア(独自算出の注目度): 13.310757078491916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have become prominent models for solving various
vision tasks. However, the interpretability of ViTs has not kept pace with
their promising performance. While there has been a surge of interest in
developing {\it post hoc} solutions to explain ViTs' outputs, these methods do
not generalize to different downstream tasks and various transformer
architectures. Furthermore, if ViTs are not properly trained with the given
data and do not prioritize the region of interest, the {\it post hoc} methods
would be less effective. Instead of developing another {\it post hoc} approach,
we introduce a novel training procedure that inherently enhances model
interpretability. Our interpretability-aware ViT (IA-ViT) draws inspiration
from a fresh insight: both the class patch and image patches consistently
generate predicted distributions and attention maps. IA-ViT is composed of a
feature extractor, a predictor, and an interpreter, which are trained jointly
with an interpretability-aware training objective. Consequently, the
interpreter simulates the behavior of the predictor and provides a faithful
explanation through its single-head self-attention mechanism. Our comprehensive
experimental results demonstrate the effectiveness of IA-ViT in several image
classification tasks, with both qualitative and quantitative evaluations of
model performance and interpretability. Source code is available from:
https://github.com/qiangyao1988/IA-ViT.
- Abstract(参考訳): 視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。
しかし、ViTsの解釈性は、期待できる性能を保ってはいない。
ViTsの出力を説明するソリューションの開発には関心が高まっているが、これらの手法は下流の様々なタスクや様々なトランスフォーマーアーキテクチャに一般化していない。
さらに、ViTが与えられたデータで適切に訓練されておらず、興味のある領域を優先順位付けしていない場合、it post hoc} 法は効果が低い。
新たな手法を考案する代わりに,モデル解釈性を高める新たなトレーニング手順を導入する。
我々の解釈可能性認識型ViT(IA-ViT)は、クラスパッチとイメージパッチの両方が予測分布とアテンションマップを一貫して生成しているという、新たな洞察からインスピレーションを得ている。
IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
その結果、インタプリタは予測器の動作をシミュレートし、その単一頭部自己認識機構を通じて忠実な説明を提供する。
画像分類作業におけるIA-ViTの有効性を,モデル性能と解釈可能性の質的・定量的評価により検証した。
ソースコードはhttps://github.com/qiangyao1988/ia-vit。
関連論文リスト
- Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects [30.09778169168547]
ビジョントランス (ViT) は様々な環境で最先端のパフォーマンスを実現している。
しかし、視覚的関係を含むタスクを遂行する際、驚くべき失敗を経験する。
論文 参考訳(メタデータ) (2024-06-22T22:43:10Z) - Attention Guided CAM: Visual Explanations of Vision Transformer Guided
by Self-Attention [2.466595763108917]
本稿では,ViT に適応した注意誘導型可視化手法を提案する。
本手法は,クラスラベルのみを用いて,高精度なセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクスを提供する。
論文 参考訳(メタデータ) (2024-02-07T03:43:56Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Understanding Gaussian Attention Bias of Vision Transformers Using
Effective Receptive Fields [7.58745191859815]
イメージを分割したパッチのシーケンスとしてモデル化する視覚変換器(ViT)は、多様な視覚タスクにおいて顕著なパフォーマンスを示している。
本稿では,姿勢埋め込みをトレーニング開始時から対応するパターンを持つようにガイドするガウス的注意バイアスを明示的に追加することを提案する。
その結果,提案手法は画像の理解を容易にするだけでなく,様々なデータセット上での性能向上にも寄与することがわかった。
論文 参考訳(メタデータ) (2023-05-08T14:12:25Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Understanding and Improving Robustness of Vision Transformers through
Patch-based Negative Augmentation [29.08732248577141]
本稿では,視覚変換器 (ViT) のレンズによる堅牢性について検討する。
変換が元のセマンティクスを大きく損なう場合でも、ViTはパッチベースの変換に驚くほど敏感であることがわかった。
パッチベースの負の増大は、広範囲のImageNetベースのロバストネスベンチマークにおいて、ViTのロバストネスを一貫して改善することを示す。
論文 参考訳(メタデータ) (2021-10-15T04:53:18Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。