論文の概要: Vision Transformers: the threat of realistic adversarial patches
- arxiv url: http://arxiv.org/abs/2509.21084v1
- Date: Thu, 25 Sep 2025 12:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.90267
- Title: Vision Transformers: the threat of realistic adversarial patches
- Title(参考訳): ビジョントランスフォーマー:現実的な敵パッチの脅威
- Authors: Kasper Cools, Clara Maathuis, Alexander M. van Oers, Claudia S. Hübner, Nikos Deligiannis, Marijke Vandewal, Geert De Cubber,
- Abstract要約: ビジョントランスフォーマー(ViT)は、現代の機械学習において大きな注目を集めている。
ViTは、特に敵のパッチに対して、回避攻撃に弱いままである。
本研究では,VT分類モデルに適用したCNNにおける敵攻撃手法の転送可能性について検討した。
- 参考スコア(独自算出の注目度): 48.03238826812818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing reliance on machine learning systems has made their security a critical concern. Evasion attacks enable adversaries to manipulate the decision-making processes of AI systems, potentially causing security breaches or misclassification of targets. Vision Transformers (ViTs) have gained significant traction in modern machine learning due to increased 1) performance compared to Convolutional Neural Networks (CNNs) and 2) robustness against adversarial perturbations. However, ViTs remain vulnerable to evasion attacks, particularly to adversarial patches, unique patterns designed to manipulate AI classification systems. These vulnerabilities are investigated by designing realistic adversarial patches to cause misclassification in person vs. non-person classification tasks using the Creases Transformation (CT) technique, which adds subtle geometric distortions similar to those occurring naturally when wearing clothing. This study investigates the transferability of adversarial attack techniques used in CNNs when applied to ViT classification models. Experimental evaluation across four fine-tuned ViT models on a binary person classification task reveals significant vulnerability variations: attack success rates ranged from 40.04% (google/vit-base-patch16-224-in21k) to 99.97% (facebook/dino-vitb16), with google/vit-base-patch16-224 achieving 66.40% and facebook/dinov3-vitb16 reaching 65.17%. These results confirm the cross-architectural transferability of adversarial patches from CNNs to ViTs, with pre-training dataset scale and methodology strongly influencing model resilience to adversarial attacks.
- Abstract(参考訳): 機械学習システムへの依存度が高まっているため、セキュリティは重要な懸念事項となっている。
侵入攻撃により、敵はAIシステムの意思決定プロセスを操作でき、セキュリティ侵害やターゲットの誤分類を引き起こす可能性がある。
ビジョントランスフォーマー(ViTs)は、機械学習の普及により、現代の機械学習において大きな牽引力を得ている
1)畳み込みニューラルネットワーク(CNN)と性能の比較
2)敵対的摂動に対する堅牢性。
しかし、ViTは、特にAI分類システムを操作するために設計された独自のパターンである敵パッチに対して、回避攻撃に対して脆弱なままである。
これらの脆弱性は、現実的な敵対パッチを設計し、衣服を着るときに自然に発生するものと類似した微妙な幾何的歪みを付加するCT(Creases Transformation)技術を用いて、個人と非個人を分類するタスクの誤分類を引き起こす。
本研究では,VT分類モデルに適用したCNNにおける敵攻撃手法の転送可能性について検討した。
攻撃成功率は40.04%(Google/vit-base-patch16-224-in21k)から99.97%(facebook/dino-vitb16)、google/vit-base-patch16-224は66.40%、facebook/dinov3-vitb16は65.17%である。
これらの結果から,CNN から ViT への逆襲パッチの相互構造的伝達性について,事前学習データセットのスケールと,逆襲攻撃に対するモデルレジリエンスに強い影響を与える方法論を用いて検証した。
関連論文リスト
- Breaking the Illusion of Security via Interpretation: Interpretable Vision Transformer Systems under Attack [23.690939122119723]
視覚変換器(ViT)モデルは、解釈モデルと組み合わせると、安全で欺くことが難しいと見なされる。
本研究では,解釈モデルと組み合わせても,逆攻撃に対するトランスフォーマーモデルの脆弱性について検討する。
本稿では,ある変圧器モデルとその結合解釈モデルの両方を誤解させることのできる逆例を生成する「AdViT」と呼ばれる攻撃を提案する。
論文 参考訳(メタデータ) (2025-07-18T05:11:11Z) - ViTGuard: Attention-aware Detection against Adversarial Examples for Vision Transformer [8.71614629110101]
本稿では,視覚変換器(ViT)モデルを敵攻撃に対して防御するための一般的な検出方法として,ViTGuardを提案する。
ViTGuardはMasked Autoencoder(MAE)モデルを使用して、ランダムにマスキングされたパッチを非マッシュ領域から回収する。
しきい値に基づく検出器は、注意マップやトークン表現(トークン表現)の分類など、ViT特有の特徴を活用して、通常のサンプルと反対のサンプルを区別する。
論文 参考訳(メタデータ) (2024-09-20T18:11:56Z) - Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - Black-box Adversarial Transferability: An Empirical Study in Cybersecurity Perspective [0.0]
敵対的機械学習では、悪意のあるユーザは、トレーニングまたはテストフェーズ中に、相手の摂動入力をモデルに挿入することで、ディープラーニングモデルを騙そうとします。
サイバー攻撃検知システムにおけるブラックボックスの逆転現象を実証的に検証する。
その結果,攻撃者が対象モデルの内部情報にアクセスできなくても,どんなディープラーニングモデルでも敵攻撃に強い影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2024-04-15T06:56:28Z) - The Efficacy of Transformer-based Adversarial Attacks in Security
Domains [0.7156877824959499]
システムディフェンダーの対向サンプルに対する変換器のロバスト性およびシステムアタッカーに対する対向強度を評価する。
我々の研究は、セキュリティ領域におけるモデルの攻撃と防御のためにトランスフォーマーアーキテクチャを研究することの重要性を強調している。
論文 参考訳(メタデータ) (2023-10-17T21:45:23Z) - Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T19:02:24Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - Evaluating the Robustness of Semantic Segmentation for Autonomous
Driving against Real-World Adversarial Patch Attacks [62.87459235819762]
自動運転車のような現実のシナリオでは、現実の敵例(RWAE)にもっと注意を払わなければならない。
本稿では,デジタルおよび実世界の敵対パッチの効果を検証し,一般的なSSモデルのロバスト性を詳細に評価する。
論文 参考訳(メタデータ) (2021-08-13T11:49:09Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。