論文の概要: Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision Transformer
- arxiv url: http://arxiv.org/abs/2403.14552v1
- Date: Thu, 21 Mar 2024 16:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:20:11.471064
- Title: Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision Transformer
- Title(参考訳): Token Transformation Matters: Token Transformation Matters: toward the Faithful Post-Hoc Explanation for Vision Transformer (特集:情報ネットワーク)
- Authors: Junyi Wu, Bin Duan, Weitai Kang, Hao Tang, Yan Yan,
- Abstract要約: 視覚変換器は、領域を変換トークンとして表現し、注意重みを通してそれらを統合することによって視覚情報を抽出する。
既存のポストホックな説明法は単にこれらの注意重みを考慮し、変換されたトークンから重要な情報を無視するだけである。
本稿では,トークン変換効果の測定を利用したポストホックな説明手法であるTokenTMを提案する。
- 参考スコア(独自算出の注目度): 16.97186100288621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Transformers have rapidly gained popularity in various computer vision applications, post-hoc explanations of their internal mechanisms remain largely unexplored. Vision Transformers extract visual information by representing image regions as transformed tokens and integrating them via attention weights. However, existing post-hoc explanation methods merely consider these attention weights, neglecting crucial information from the transformed tokens, which fails to accurately illustrate the rationales behind the models' predictions. To incorporate the influence of token transformation into interpretation, we propose TokenTM, a novel post-hoc explanation method that utilizes our introduced measurement of token transformation effects. Specifically, we quantify token transformation effects by measuring changes in token lengths and correlations in their directions pre- and post-transformation. Moreover, we develop initialization and aggregation rules to integrate both attention weights and token transformation effects across all layers, capturing holistic token contributions throughout the model. Experimental results on segmentation and perturbation tests demonstrate the superiority of our proposed TokenTM compared to state-of-the-art Vision Transformer explanation methods.
- Abstract(参考訳): トランスフォーマーは様々なコンピュータビジョンアプリケーションで急速に人気を博しているが、その内部メカニズムに関するポストホックな説明はほとんど未解明のままである。
視覚変換器は、画像領域を変換トークンとして表現し、注意重みを通して統合することにより、視覚情報を抽出する。
しかし、既存のポストホックな説明法は単にこれらの注意重みを単に考慮し、変換されたトークンから重要な情報を無視するだけであり、モデルの予測の背後にある理論的根拠を正確に説明できない。
トークン変換の影響を解釈に組み込むために,トークン変換効果の測定を利用した新しいポストホックな説明法であるTokenTMを提案する。
具体的には,トークン長の変化と,その方向と前後の相関を計測することにより,トークン変換効果の定量化を行う。
さらに,全層にわたる注目重みとトークン変換効果を統合化するための初期化ルールと集約ルールを開発し,モデル全体の全体的なトークンコントリビューションをキャプチャする。
セグメンテーションおよび摂動試験による実験結果から,提案したTokenTMは最新技術であるVision Transformer法と比較して優れていることが示された。
関連論文リスト
- Inspecting Explainability of Transformer Models with Additional
Statistical Information [27.04589064942369]
Cheferらは、各イメージパッチの重要性を示すために注意層を組み合わせることで、視覚およびマルチモーダルタスク上のトランスフォーマーを効果的に可視化することができる。
しかし、Swin Transformerのような他の変種のTransformerに適用する場合、この方法は予測対象に集中できない。
本手法は,Swin Transformer と ViT が持つ説明可能性の理解に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-19T17:22:50Z) - ExpPoint-MAE: Better interpretability and performance for self-supervised point cloud transformers [7.725095281624494]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - VISIT: Visualizing and Interpreting the Semantic Information Flow of
Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。
LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。
対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文 参考訳(メタデータ) (2023-05-22T19:04:56Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。