論文の概要: Towards Robust Vision Transformer via Masked Adaptive Ensemble
- arxiv url: http://arxiv.org/abs/2407.15385v1
- Date: Mon, 22 Jul 2024 05:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 16:10:42.879050
- Title: Towards Robust Vision Transformer via Masked Adaptive Ensemble
- Title(参考訳): マスケッド適応アンサンブルを用いたロバスト・ビジョン・トランス
- Authors: Fudong Lin, Jiadong Lou, Xu Yuan, Nian-Feng Tzeng,
- Abstract要約: 対戦訓練(AT)は、敵攻撃に対するビジョントランスフォーマー(ViT)の堅牢性を向上させるのに役立つ。
本稿では,新たに開発した適応アンサンブルでブリッジされた検出器と分類器を含む新しいViTアーキテクチャを提案する。
CIFAR-10における我々のViTアーキテクチャは, それぞれ90.3%, 49.8%の正正正正正正正正正正正正正正正正正正正正正正正正正正正則を達成している。
- 参考スコア(独自算出の注目度): 23.986968861837813
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Adversarial training (AT) can help improve the robustness of Vision Transformers (ViT) against adversarial attacks by intentionally injecting adversarial examples into the training data. However, this way of adversarial injection inevitably incurs standard accuracy degradation to some extent, thereby calling for a trade-off between standard accuracy and robustness. Besides, the prominent AT solutions are still vulnerable to adaptive attacks. To tackle such shortcomings, this paper proposes a novel ViT architecture, including a detector and a classifier bridged by our newly developed adaptive ensemble. Specifically, we empirically discover that detecting adversarial examples can benefit from the Guided Backpropagation technique. Driven by this discovery, a novel Multi-head Self-Attention (MSA) mechanism is introduced to enhance our detector to sniff adversarial examples. Then, a classifier with two encoders is employed for extracting visual representations respectively from clean images and adversarial examples, with our adaptive ensemble to adaptively adjust the proportion of visual representations from the two encoders for accurate classification. This design enables our ViT architecture to achieve a better trade-off between standard accuracy and robustness. Besides, our adaptive ensemble technique allows us to mask off a random subset of image patches within input data, boosting our ViT's robustness against adaptive attacks, while maintaining high standard accuracy. Experimental results exhibit that our ViT architecture, on CIFAR-10, achieves the best standard accuracy and adversarial robustness of 90.3% and 49.8%, respectively.
- Abstract(参考訳): 対人訓練(AT)は、対人攻撃に対する視覚変換器(ViT)の堅牢性を向上させるのに役立つ。
しかし、この逆噴射方式は必然的に標準精度の低下を招くため、標準精度とロバスト性の間のトレードオフが要求される。
さらに、ATソリューションは依然としてアダプティブアタックに対して脆弱である。
このような欠点に対処するため,本研究では,新たに開発した適応アンサンブルにブリッジされた検出器と分類器を含む,新しいViTアーキテクチャを提案する。
具体的には,敵対例の検出がガイドバックプロパゲーション手法の恩恵を受けることを実証的に発見する。
この発見で駆動される新しいマルチヘッド自己認識(MSA)機構が導入された。
次に、2つのエンコーダを持つ分類器を用いて、クリーン画像と逆例からそれぞれ視覚表現を抽出し、適応アンサンブルを用いて2つのエンコーダから視覚表現の割合を適応的に調整し、正確な分類を行う。
この設計により、私たちのViTアーキテクチャは、標準精度とロバスト性の間のトレードオフをよりよく達成できます。
さらに、適応アンサンブル技術により、入力データ内の画像パッチのランダムなサブセットをマスクでき、標準精度を維持しながら、適応攻撃に対するViTの堅牢性を高めることができる。
CIFAR-10における我々のViTアーキテクチャは, それぞれ90.3%, 49.8%の正正正正正正正正正正正正正正正正正正正正正正正正正正正則を達成している。
関連論文リスト
- Fortify the Guardian, Not the Treasure: Resilient Adversarial Detectors [0.0]
アダプティブアタックとは、攻撃者が防御を意識し、その戦略を適応させる攻撃である。
提案手法は, クリーンな精度を損なうことなく, 敵の訓練を活用して攻撃を検知する能力を強化する。
CIFAR-10とSVHNデータセットの実験的評価により,提案アルゴリズムは,適応的敵攻撃を正確に識別する検出器の能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-04-18T12:13:09Z) - Towards Robust Image Stitching: An Adaptive Resistance Learning against
Compatible Attacks [66.98297584796391]
画像縫合は、様々な視点から捉えた画像をシームレスに単一の視野画像に統合する。
一対の撮像画像が与えられたとき、人間の視覚システムに気づかない微妙な摂動と歪みは、対応の一致を攻撃しがちである。
本稿では,敵対的攻撃に対する画像縫合の堅牢性向上に向けた最初の試みについて述べる。
論文 参考訳(メタデータ) (2024-02-25T02:36:33Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Carefully Blending Adversarial Training and Purification Improves Adversarial Robustness [1.2289361708127877]
CARSOは、防御のために考案された適応的なエンドツーエンドのホワイトボックス攻撃から自身を守ることができる。
提案手法はCIFAR-10, CIFAR-100, TinyImageNet-200の最先端技術により改善されている。
論文 参考訳(メタデータ) (2023-05-25T09:04:31Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Towards Adversarial Purification using Denoising AutoEncoders [0.8701566919381223]
敵対的攻撃は、通常画像に対する微妙な摂動によってしばしば得られる。
本稿では,DAE(Denoising AutoEncoders)を利用したAPuDAEというフレームワークを提案する。
当社のフレームワークが、敵を浄化するベースラインメソッドに比較して、ほとんどの場合、優れたパフォーマンスを提供する方法を示します。
論文 参考訳(メタデータ) (2022-08-29T19:04:25Z) - Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T19:02:24Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Interpolated Joint Space Adversarial Training for Robust and
Generalizable Defenses [82.3052187788609]
敵の訓練(AT)は、敵の攻撃に対する最も信頼できる防御の1つと考えられている。
近年の研究では、新たな脅威モデルの下での対向サンプルによる一般化の改善が示されている。
我々は、JSTM(Joint Space Threat Model)と呼ばれる新しい脅威モデルを提案する。
JSTMでは,新たな敵攻撃・防衛手法が開発されている。
論文 参考訳(メタデータ) (2021-12-12T21:08:14Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。