論文の概要: T-TAME: Trainable Attention Mechanism for Explaining Convolutional
Networks and Vision Transformers
- arxiv url: http://arxiv.org/abs/2403.04523v1
- Date: Thu, 7 Mar 2024 14:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:56:53.189587
- Title: T-TAME: Trainable Attention Mechanism for Explaining Convolutional
Networks and Vision Transformers
- Title(参考訳): t-tame:畳み込みネットワークと視覚トランスフォーマを説明するための訓練可能な注意機構
- Authors: Mariano V. Ntrougkas, Nikolaos Gkalelis, Vasileios Mezaris
- Abstract要約: ニューラルネットワークの"ブラックボックス"の性質は、説明責任が不可欠であるアプリケーションにおいて、採用の障壁となる。
本稿では,T-TAME(Transformer- compatible Trainable Attention Mechanism for Explanations)を提案する。
提案されたアーキテクチャとトレーニング技術は、どんな畳み込みやビジョントランスフォーマーのようなニューラルネットワークにも容易に適用できる。
- 参考スコア(独自算出の注目度): 9.284740716447342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development and adoption of Vision Transformers and other deep-learning
architectures for image classification tasks has been rapid. However, the
"black box" nature of neural networks is a barrier to adoption in applications
where explainability is essential. While some techniques for generating
explanations have been proposed, primarily for Convolutional Neural Networks,
adapting such techniques to the new paradigm of Vision Transformers is
non-trivial. This paper presents T-TAME, Transformer-compatible Trainable
Attention Mechanism for Explanations, a general methodology for explaining deep
neural networks used in image classification tasks. The proposed architecture
and training technique can be easily applied to any convolutional or Vision
Transformer-like neural network, using a streamlined training approach. After
training, explanation maps can be computed in a single forward pass; these
explanation maps are comparable to or outperform the outputs of computationally
expensive perturbation-based explainability techniques, achieving SOTA
performance. We apply T-TAME to three popular deep learning classifier
architectures, VGG-16, ResNet-50, and ViT-B-16, trained on the ImageNet
dataset, and we demonstrate improvements over existing state-of-the-art
explainability methods. A detailed analysis of the results and an ablation
study provide insights into how the T-TAME design choices affect the quality of
the generated explanation maps.
- Abstract(参考訳): 画像分類タスクのための視覚トランスフォーマーやその他のディープラーニングアーキテクチャの開発と採用が急速に進んでいる。
しかしながら、ニューラルネットワークの“ブラックボックス”の性質は、説明責任が不可欠であるアプリケーションにおいて、採用の障壁となる。
説明を生成するいくつかの手法が提案されているが、主に畳み込みニューラルネットワークでは、視覚トランスフォーマーの新しいパラダイムへの適応は自明ではない。
本稿では、画像分類タスクで使用されるディープニューラルネットワークを説明する一般的な手法であるT-TAMEについて述べる。
提案したアーキテクチャとトレーニング技術は、任意の畳み込みやビジョントランスフォーマーのようなニューラルネットワークに、合理化されたトレーニングアプローチを使用して容易に適用することができる。
トレーニング後、説明マップは1つの前方通過で計算でき、これらの説明マップは計算に高価な摂動に基づく説明可能性技術の出力に匹敵し、SOTA性能を達成する。
我々は、ImageNetデータセットでトレーニングされた3つの一般的なディープラーニング分類アーキテクチャ、VGG-16、ResNet-50、ViT-B-16にT-TAMEを適用する。
結果の詳細な分析とアブレーション研究は、T-TAMEの設計選択が生成した説明地図の品質にどのように影響するかを洞察する。
関連論文リスト
- Revolutionizing Traffic Sign Recognition: Unveiling the Potential of Vision Transformers [0.0]
交通信号認識(TSR)は、運転支援システムや自動運転車において重要な役割を担っている。
本研究では、ベースラインモデルとしてビジョントランスフォーマー(PVT、TNT、LNL)と6つの畳み込みニューラルネットワーク(AlexNet、ResNet、VGG16、MobileNet、EfficientNet、GoogleNet)を探索する。
従来の手法の欠点に対処するため、新しいピラミッドEATFormerバックボーンを提案し、進化的アルゴリズム(EA)とTransformerアーキテクチャを組み合わせる。
論文 参考訳(メタデータ) (2024-04-29T19:18:52Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - TVE: Learning Meta-attribution for Transferable Vision Explainer [76.68234965262761]
本稿では,下流タスクにおける様々な視覚モデルを効果的に説明できるTransferable Vision Explainer(TVE)を提案する。
TVEは,大規模データセットの事前学習プロセスを通じて,メタ属性の学習を実現する。
このメタ属性は、一般的なバックボーンエンコーダの汎用性を利用して、入力インスタンスの属性知識を包括的にエンコードし、TVEがシームレスに転送し、様々な下流タスクを説明することを可能にする。
論文 参考訳(メタデータ) (2023-12-23T21:49:23Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - NAR-Former V2: Rethinking Transformer for Universal Neural Network
Representation Learning [25.197394237526865]
本稿では,トランスフォーマーに基づく汎用ニューラルネットワーク表現学習モデル NAR-Former V2 を提案する。
具体的には、ネットワークをグラフとして取り、簡単なトークン化器を設計して、ネットワークをシーケンスにエンコードする。
我々は,GNNの帰納的表現学習能力をTransformerに組み込んだ。
論文 参考訳(メタデータ) (2023-06-19T09:11:04Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Explainability-aided Domain Generalization for Image Classification [0.0]
説明可能性文献から手法やアーキテクチャを適用することで、ドメインの一般化という困難な課題に対して最先端のパフォーマンスを達成できることを示す。
そこで我々は,勾配に基づくクラスアクティベーションマップを用いて学習中にネットワークが指導を受ける手法であるDivCAMを含む新しいアルゴリズムを開発し,多様な識別機能に焦点をあてる。
これらの手法は、説明可能性に加えて競合性能を提供するため、深層ニューラルネットワークアーキテクチャのロバスト性を改善するツールとして使用できると論じる。
論文 参考訳(メタデータ) (2021-04-05T02:27:01Z) - Investigating the Vision Transformer Model for Image Retrieval Tasks [1.375062426766416]
本稿では,事前に準備することなく画像検索タスクに効果的に適用できるプラグイン・アンド・プレイディスクリプタを提案する。
提案手法は,パラメータ調整のためのトレーニングデータを必要としないが,最近提案されたビジョントランスフォーマネットワークを利用する。
画像検索タスクにおいて、グローバルデリプタとローカルデリプタの使用は、過去数年間にわたって、畳み込みニューラルネットワーク(cnn)ベースの手法によって非常にうまく置き換えられてきた。
論文 参考訳(メタデータ) (2021-01-11T08:59:54Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。