論文の概要: Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches
- arxiv url: http://arxiv.org/abs/2311.12914v1
- Date: Tue, 21 Nov 2023 17:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 17:22:11.396701
- Title: Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches
- Title(参考訳): 注意命令が下される!
協調的対向パッチによる変形型視覚トランスフォーマーの騙し
- Authors: Quazi Mishkatul Alam, Bilel Tarchoun, Ihsen Alouani, Nael Abu-Ghazaleh
- Abstract要約: 我々は、ソースパッチが注意を操り、システムに対して敵対的に攻撃するターゲットパッチを指し示すような、新たな協調攻撃を開発する。
実験の結果,入力フィールドのパッチ領域は1%に過ぎず,0%のAPが得られることがわかった。
- 参考スコア(独自算出の注目度): 3.4673556247932225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The latest generation of transformer-based vision models have proven to be
superior to Convolutional Neural Network (CNN)-based models across several
vision tasks, largely attributed to their remarkable prowess in relation
modeling. Deformable vision transformers significantly reduce the quadratic
complexity of modeling attention by using sparse attention structures, enabling
them to be used in larger scale applications such as multi-view vision systems.
Recent work demonstrated adversarial attacks against transformers; we show that
these attacks do not transfer to deformable transformers due to their sparse
attention structure. Specifically, attention in deformable transformers is
modeled using pointers to the most relevant other tokens. In this work, we
contribute for the first time adversarial attacks that manipulate the attention
of deformable transformers, distracting them to focus on irrelevant parts of
the image. We also develop new collaborative attacks where a source patch
manipulates attention to point to a target patch that adversarially attacks the
system. In our experiments, we find that only 1% patched area of the input
field can lead to 0% AP. We also show that the attacks provide substantial
versatility to support different attacker scenarios because of their ability to
redirect attention under the attacker control.
- Abstract(参考訳): 最新のトランスフォーマーベースのビジョンモデルは、いくつかのビジョンタスクにわたる畳み込みニューラルネットワーク(cnn)ベースのモデルよりも優れていることが証明されている。
変形可能な視覚変換器は、スパースアテンション構造を用いることで、モデリングアテンションの二次的複雑さを著しく低減し、マルチビュー視覚システムのような大規模アプリケーションで使用することができる。
近年の研究では, 変圧器に対する対向攻撃が示されており, これらの攻撃は軽微な注意構造のため, 変形可能な変圧器に伝達されないことが示されている。
特に、変形可能な変換器の注意は、最も関連性の高い他のトークンへのポインタを用いてモデル化される。
本研究では,変形可能なトランスフォーマーの注意を操り,画像の無関係な部分に焦点を合わせないように注意をそらす,初めて対向攻撃に寄与する。
我々はまた、ソースパッチが注意を操り、システムに逆らうターゲットパッチを指し示すような、新たな協調攻撃も開発した。
実験の結果,入力フィールドのパッチ領域は1%に過ぎず,0%のAPが得られることがわかった。
また,アタッカー制御下での注意をリダイレクトする能力から,攻撃シナリオを多角的にサポートできることを示す。
関連論文リスト
- Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Visual Transformer for Object Detection [0.0]
我々は、自己注意を識別的視覚的タスク、オブジェクト検出に用いて、畳み込みの代替として検討する。
我々のモデルは、多くの異なるモデルとスケールにわたるCOCOのオブジェクト検出において、一貫した改善をもたらす。
論文 参考訳(メタデータ) (2022-06-01T06:13:09Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - CrossFormer: A Versatile Vision Transformer Based on Cross-scale
Attention [37.39327010226153]
クロススケールな埋め込み層(CEL)と長短距離注意(LSDA)を提案する。
CELは各埋め込みを異なるスケールの複数のパッチでブレンドし、モデルにクロススケールな埋め込みを提供する。
LSDAは自己保持モジュールを短距離で長距離のモジュールに分割し、コストを下げるが、小さな機能と大規模な機能の両方を埋め込みに保持する。
論文 参考訳(メタデータ) (2021-07-31T05:52:21Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。