論文の概要: Explainability of Vision Transformers: A Comprehensive Review and New
Perspectives
- arxiv url: http://arxiv.org/abs/2311.06786v1
- Date: Sun, 12 Nov 2023 09:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:54:59.913458
- Title: Explainability of Vision Transformers: A Comprehensive Review and New
Perspectives
- Title(参考訳): 視覚変換器の解説可能性 : 概観と新たな展望
- Authors: Rojina Kashefi, Leili Barekatain, Mohammad Sabokrou, Fatemeh
Aghaeipoor
- Abstract要約: トランスフォーマーは自然言語処理に大きな影響を与え、最近コンピュータビジョンにおけるその可能性を実証した。
本研究では、視覚変換器に提案する様々な説明可能性手法について検討し、それらを分類するための分類法を提案する。
分析結果の比較に使用できる評価基準の総合的なレビューを提供する。
- 参考スコア(独自算出の注目度): 11.853186902106067
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformers have had a significant impact on natural language processing and
have recently demonstrated their potential in computer vision. They have shown
promising results over convolution neural networks in fundamental computer
vision tasks. However, the scientific community has not fully grasped the inner
workings of vision transformers, nor the basis for their decision-making, which
underscores the importance of explainability methods. Understanding how these
models arrive at their decisions not only improves their performance but also
builds trust in AI systems. This study explores different explainability
methods proposed for visual transformers and presents a taxonomy for organizing
them according to their motivations, structures, and application scenarios. In
addition, it provides a comprehensive review of evaluation criteria that can be
used for comparing explanation results, as well as explainability tools and
frameworks. Finally, the paper highlights essential but unexplored aspects that
can enhance the explainability of visual transformers, and promising research
directions are suggested for future investment.
- Abstract(参考訳): トランスフォーマーは自然言語処理に大きな影響を与え、最近コンピュータビジョンにおけるその可能性を実証した。
彼らは基本的なコンピュータビジョンタスクにおいて畳み込みニューラルネットワークよりも有望な結果を示している。
しかし、科学コミュニティはビジョントランスフォーマーの内部動作や意思決定の基盤を完全に把握していないため、説明可能性の方法の重要性が強調されている。
これらのモデルがどのように決定に達するかを理解することは、パフォーマンスを向上するだけでなく、AIシステムへの信頼を構築する。
本研究では,視覚変換器に提案する様々な説明可能性手法について検討し,そのモチベーション,構造,応用シナリオに応じて分類する。
さらに、説明可能性ツールやフレームワークと同様に、説明結果の比較に使用できる評価基準の包括的なレビューも提供する。
最後に,視覚トランスフォーマーの説明可能性を高めるための必須だが未熟な側面を強調し,今後の投資に向けて有望な研究方向を提案する。
関連論文リスト
- A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化
これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。
コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文 参考訳(メタデータ) (2024-08-27T16:22:18Z) - Adventures of Trustworthy Vision-Language Models: A Survey [54.76511683427566]
本稿では,バイス,ロバスト性,解釈可能性の3つの基本原理を用いて,視覚言語変換器の徹底的な検証を行う。
本研究の主な目的は, トランスフォーマーの実用化に伴う複雑さと複雑さを掘り下げることであり, 信頼性と説明責任を高める方法の理解を深めることである。
論文 参考訳(メタデータ) (2023-12-07T11:31:20Z) - Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Vision Transformers: State of the Art and Research Challenges [26.462994554165697]
本稿では,異なるアーキテクチャ設計と視覚変換器のトレーニング手法に関する文献の概要を概説する。
我々の目標は、オープンな研究機会を体系的にレビューすることです。
論文 参考訳(メタデータ) (2022-07-07T02:01:56Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。