論文の概要: Is Attentional Channel Processing Design Required? Comprehensive
Analysis Of Robustness Between Vision Transformers And Fully Attentional
Networks
- arxiv url: http://arxiv.org/abs/2306.05495v1
- Date: Thu, 8 Jun 2023 18:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 15:44:09.709669
- Title: Is Attentional Channel Processing Design Required? Comprehensive
Analysis Of Robustness Between Vision Transformers And Fully Attentional
Networks
- Title(参考訳): 注意チャネル処理設計は必要か?
視覚トランスフォーマーと完全注意ネットワークのロバスト性に関する包括的解析
- Authors: Abhishri Ajit Medewar, Swanand Ashokrao Kavitkar
- Abstract要約: 我々はImageNetデータセットを用いて、フルアテンショナル・ネットワーク(FAN)モデルのロバスト性を従来のビジョン・トランスフォーマーと比較する。
また,ブラックボックス攻撃による同一の移動性についても検討した。
- 参考スコア(独自算出の注目度): 4.425982186154401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The robustness testing has been performed for standard CNN models and Vision
Transformers, however there is a lack of comprehensive study between the
robustness of traditional Vision Transformers without an extra attentional
channel design and the latest fully attentional network(FAN) models. So in this
paper, we use the ImageNet dataset to compare the robustness of fully
attentional network(FAN) models with traditional Vision Transformers to
understand the role of an attentional channel processing design using white box
attacks and also study the transferability between the same using black box
attacks.
- Abstract(参考訳): 標準CNNモデルとビジョントランスフォーマーではロバストネステストが実施されているが、従来のビジョントランスフォーマーのロバストネスと最新のフルアテンショナルネットワーク(FAN)モデルとの間には包括的な研究が欠如している。
そこで本稿では,imagenetデータセットを用いて,完全注意ネットワーク(fan)モデルのロバスト性と従来の視覚トランスフォーマーとの比較を行い,ホワイトボックスアタックを用いた注意チャネル処理設計の役割を理解し,ブラックボックスアタックを用いてその間の転送可能性について検討する。
関連論文リスト
- Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as
an Alternative to Attention Layers in Transformers [5.356051655680145]
本研究は,従来のトランスフォーマーモデルにおけるアテンション機構の動作を模倣するために,標準の浅層フィードフォワードネットワークを用いることの有効性について分析した。
我々はトランスフォーマーの注意機構の重要な要素を簡単なフィードフォワードネットワークで置き換え、知識蒸留により元のコンポーネントを用いて訓練する。
IWSLT 2017データセットで実施した実験では,これらの“アテンションレストランスフォーマー(attentionless Transformers)”の能力が,オリジナルのアーキテクチャのパフォーマンスに匹敵することを示した。
論文 参考訳(メタデータ) (2023-11-17T16:58:52Z) - Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Deep Laparoscopic Stereo Matching with Transformers [46.18206008056612]
トランス構造をうまく利用した自己保持機構は、多くのコンピュータビジョンタスクにおいて有望であることが示されている。
本稿では,CNNの長所と変圧器を統一設計で組み合わせたハイブリッドなディープステレオマッチングフレームワーク(HybridStereoNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T12:54:32Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - A ConvNet for the 2020s [94.89735578018099]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。
これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。
本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Recurrent Vision Transformer for Solving Visual Reasoning Problems [13.658244210412352]
畳み込みニューラルネットワーク(CNN)のためのRecurrent Vision Transformer(RViT)モデルを導入する。
このネットワークは、リカレント接続の影響と推論タスクにおける空間的注意の影響により、同一の視覚的推論問題に対する競合的な結果が得られる。
包括的アブレーション研究により、ハイブリッドCNN + Transformerアーキテクチャの重要性が確認された。
論文 参考訳(メタデータ) (2021-11-29T15:01:09Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。