Fugu-MT 論文翻訳(概要): Improving Robustness for Vision Transformer with a Simple Dynamic Scanning Augmentation

論文の概要: Improving Robustness for Vision Transformer with a Simple Dynamic Scanning Augmentation

arxiv url: http://arxiv.org/abs/2311.00441v1
Date: Wed, 1 Nov 2023 11:10:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 13:54:08.421215
Title: Improving Robustness for Vision Transformer with a Simple Dynamic Scanning Augmentation
Title（参考訳）: ダイナミックスキャン強化による視覚変換器のロバスト性向上
Authors: Shashank Kotyan and Danilo Vasconcellos Vargas
Abstract要約: Vision Transformer (ViT)は、最先端のニューラルネットワークに匹敵するコンピュータビジョンタスクにおいて、有望なパフォーマンスを実証している。しかし、この新しいタイプのディープニューラルネットワークアーキテクチャは、堅牢性の観点からその能力を制限する敵攻撃に対して脆弱である。本稿では,ViTの精度とロバスト性,特に敵攻撃に直面することを目的とした,新たなコントリビューションを提案する。
参考スコア（独自算出の注目度）: 10.27974860479791
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision Transformer (ViT) has demonstrated promising performance in computer vision tasks, comparable to state-of-the-art neural networks. Yet, this new type of deep neural network architecture is vulnerable to adversarial attacks limiting its capabilities in terms of robustness. This article presents a novel contribution aimed at further improving the accuracy and robustness of ViT, particularly in the face of adversarial attacks. We propose an augmentation technique called `Dynamic Scanning Augmentation' that leverages dynamic input sequences to adaptively focus on different patches, thereby maintaining performance and robustness. Our detailed investigations reveal that this adaptability to the input sequence induces significant changes in the attention mechanism of ViT, even for the same image. We introduce four variations of Dynamic Scanning Augmentation, outperforming ViT in terms of both robustness to adversarial attacks and accuracy against natural images, with one variant showing comparable results. By integrating our augmentation technique, we observe a substantial increase in ViT's robustness, improving it from $17\%$ to $92\%$ measured across different types of adversarial attacks. These findings, together with other comprehensive tests, indicate that Dynamic Scanning Augmentation enhances accuracy and robustness by promoting a more adaptive type of attention. In conclusion, this work contributes to the ongoing research on Vision Transformers by introducing Dynamic Scanning Augmentation as a technique for improving the accuracy and robustness of ViT. The observed results highlight the potential of this approach in advancing computer vision tasks and merit further exploration in future studies.
Abstract（参考訳）: vision transformer (vit) は最先端のニューラルネットワークに匹敵するコンピュータビジョンタスクで有望な性能を示している。しかし、この新しいタイプのディープニューラルネットワークアーキテクチャは、堅牢性の観点からその能力を制限する敵攻撃に対して脆弱である。本稿では,ViTの精度とロバスト性,特に敵攻撃に直面することを目的とした,新たなコントリビューションを提案する。動的入力シーケンスを利用して異なるパッチに適応的にフォーカスし、性能とロバスト性を維持する「ダイナミックスキャン拡張」と呼ばれる拡張手法を提案する。この入力シーケンスへの適応性は、同じ画像であっても、ViTの注意機構に大きな変化をもたらすことが明らかとなった。動的スキャン強化の4つのバリエーションを導入し, 対角攻撃に対する堅牢性と自然な画像に対する精度の両面において, ViT よりも優れた性能を示した。拡張技術を統合することで、ViTのロバスト性を大幅に向上し、異なる種類の敵攻撃に対して17.5%から9.2.%に改善した。これらの結果は,他の包括的なテストとともに,より適応的な注意を促すことで,動的走査強調が正確性と頑健性を高めることを示唆する。本研究は,vitの精度とロバスト性を向上させる技術として,ダイナミックスキャニング拡張を導入することで,視覚トランスフォーマーの現在進行中の研究に寄与する。この結果は、コンピュータビジョンタスクの進歩におけるこのアプローチの可能性と、今後の研究におけるさらなる研究の成果を浮き彫りにしている。

関連論文リスト

The Sword of Damocles in ViTs: Computational Redundancy Amplifies Adversarial Transferability [38.32538271219404]
視覚変換器(ViT)における計算冗長性の役割と,その逆変換性への影響について検討する。データレベルとモデルレベルを含む2種類の冗長性を同定し、攻撃効果を増幅する。この知見に基づいて,注目空間の操作,アテンションヘッドの置換,クリーントークンの正規化,ゴーストモエの多様化,テスト時間逆行訓練など,一連のテクニックを設計する。
論文参考訳（メタデータ） (2025-04-15T01:59:47Z)
Mechanistic Understandings of Representation Vulnerabilities and Engineering Robust Vision Transformers [1.1187085721899017]
視覚変換器(ViT)の既知の表現脆弱性の源泉について検討し、知覚的に同一の画像が全く異なる表現を持つことを示す。我々は,早期に脆弱な神経細胞を戦略的に中和する新しい防御機構であるNeuroShield-ViTを開発し,対向効果のカスケードを防止する。我々の研究結果は、視力変換器が敵の攻撃に対して堅牢性を高めるための有望なアプローチを提供しながら、敵の効果がViT層を通してどのように伝播するかに新たな光を当てた。
論文参考訳（メタデータ） (2025-02-07T05:58:16Z)
ChangeViT: Unleashing Plain Vision Transformers for Change Detection [3.582733645632794]
ChangeViTは、大規模な変更のパフォーマンスを高めるために、プレーンなViTバックボーンを採用するフレームワークである。このフレームワークは3つの一般的な高解像度データセット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-06-18T17:59:08Z)
Attacking Transformers with Feature Diversity Adversarial Perturbation [19.597912600568026]
我々は,様々なブラックボックスモデルに対して強い伝達性を示すVTモデルに対して,ラベルフリーなホワイトボックス攻撃手法を提案する。我々のインスピレーションは、ViTsにおける機能崩壊現象から来ており、重要な注意機構は機能の低周波成分に依存する。
論文参考訳（メタデータ） (2024-03-10T00:55:58Z)
Demystify Transformers & Convolutions in Modern Image Deep Networks [80.16624587948368]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。様々なSTMが統合されたフレームワークに統合され、包括的な比較分析を行う。
論文参考訳（メタデータ） (2022-11-10T18:59:43Z)
Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文参考訳（メタデータ） (2022-08-04T19:02:24Z)
Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文参考訳（メタデータ） (2022-04-26T08:22:34Z)
Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文参考訳（メタデータ） (2022-03-11T13:48:11Z)
Video Coding for Machine: Compact Visual Representation Compression for Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文参考訳（メタデータ） (2021-10-18T12:42:13Z)
Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。 ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文参考訳（メタデータ） (2021-05-21T17:59:18Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)
On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文参考訳（メタデータ） (2021-03-29T14:48:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。