論文の概要: Disentangling Visual Transformers: Patch-level Interpretability for Image Classification
- arxiv url: http://arxiv.org/abs/2502.17196v1
- Date: Mon, 24 Feb 2025 14:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:35.751795
- Title: Disentangling Visual Transformers: Patch-level Interpretability for Image Classification
- Title(参考訳): ディエンタングリング型視覚変換器:画像分類のためのパッチレベルの解釈可能性
- Authors: Guillaume Jeanneret, Loïc Simon, Frédéric Jurie,
- Abstract要約: Hindered Transformer (HiT) を提案する。
HiTはパッチレベルの情報の線形結合と解釈できる。
説明可能性の観点から、我々のアプローチの利点は、パフォーマンスにおいて合理的なトレードオフをもたらすことを示しています。
- 参考スコア(独自算出の注目度): 2.899118947717404
- License:
- Abstract: Visual transformers have achieved remarkable performance in image classification tasks, but this performance gain has come at the cost of interpretability. One of the main obstacles to the interpretation of transformers is the self-attention mechanism, which mixes visual information across the whole image in a complex way. In this paper, we propose Hindered Transformer (HiT), a novel interpretable by design architecture inspired by visual transformers. Our proposed architecture rethinks the design of transformers to better disentangle patch influences at the classification stage. Ultimately, HiT can be interpreted as a linear combination of patch-level information. We show that the advantages of our approach in terms of explicability come with a reasonable trade-off in performance, making it an attractive alternative for applications where interpretability is paramount.
- Abstract(参考訳): 視覚変換器は画像分類タスクにおいて顕著な性能を達成したが、この性能向上は解釈可能性の犠牲となった。
変換器の解釈の主な障害の1つは、画像全体にわたる視覚情報を複雑な方法で混合する自己認識機構である。
本稿では,Hindered Transformer (HiT)を提案する。
提案アーキテクチャは, 分類段階におけるパッチの影響を解消するために, トランスフォーマーの設計を再考する。
最終的に、HiTはパッチレベルの情報の線形結合と解釈できる。
説明可能性の観点から、我々のアプローチの利点は、パフォーマンスにおける合理的なトレードオフを伴い、解釈可能性が最も高いアプリケーションにとって魅力的な代替手段であることを示す。
関連論文リスト
- SwinStyleformer is a favorable choice for image inversion [2.8115030277940947]
本稿では,SwinStyleformerと呼ばれるトランスフォーマー構造インバージョンネットワークを提案する。
実験の結果、トランスフォーマーのバックボーンによるインバージョンネットワークは、画像の反転に成功しなかった。
論文 参考訳(メタデータ) (2024-06-19T02:08:45Z) - Inspecting Explainability of Transformer Models with Additional
Statistical Information [27.04589064942369]
Cheferらは、各イメージパッチの重要性を示すために注意層を組み合わせることで、視覚およびマルチモーダルタスク上のトランスフォーマーを効果的に可視化することができる。
しかし、Swin Transformerのような他の変種のTransformerに適用する場合、この方法は予測対象に集中できない。
本手法は,Swin Transformer と ViT が持つ説明可能性の理解に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-19T17:22:50Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Exploring and Improving Mobile Level Vision Transformers [81.7741384218121]
本稿では,移動体レベルでの視覚変換器の構造について検討し,劇的な性能低下を見出した。
本稿では,新しい不規則なパッチ埋め込みモジュールと適応パッチ融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-08-30T06:42:49Z) - Training Vision Transformers for Image Retrieval [32.09708181236154]
我々は、画像記述子を生成するために視覚変換器を採用し、結果のモデルをメートル法学習目標で訓練する。
コンボリューションに基づくアプローチよりも,トランスフォーマーの一貫性と顕著な改善が示された。
論文 参考訳(メタデータ) (2021-02-10T18:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。