論文の概要: Filtered-ViT: A Robust Defense Against Multiple Adversarial Patch Attacks
- arxiv url: http://arxiv.org/abs/2511.07755v1
- Date: Wed, 12 Nov 2025 01:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.462924
- Title: Filtered-ViT: A Robust Defense Against Multiple Adversarial Patch Attacks
- Title(参考訳): Filtered-ViT: 複数の敵対的パッチ攻撃に対するロバストな防御
- Authors: Aja Khanal, Ahmed Faid, Apurva Narayan,
- Abstract要約: Filtered-ViT は SMART Median Vector (VMF) を統合した新しい視覚アーキテクチャ
LaVANマルチパッチ攻撃によるImageNetでは、Filtered-ViTは4つの同時1%パッチで79.8%のクリーンな精度と46.3%の堅牢な精度を達成した。
これにより、Filted-ViTは、対向的および自然発生のパッチのような破壊に対して統一的な堅牢性を示す最初のトランスフォーマーとなる。
- 参考スコア(独自算出の注目度): 3.9508022083907393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning vision systems are increasingly deployed in safety-critical domains such as healthcare, yet they remain vulnerable to small adversarial patches that can trigger misclassifications. Most existing defenses assume a single patch and fail when multiple localized disruptions occur, the type of scenario adversaries and real-world artifacts often exploit. We propose Filtered-ViT, a new vision transformer architecture that integrates SMART Vector Median Filtering (SMART-VMF), a spatially adaptive, multi-scale, robustness-aware mechanism that enables selective suppression of corrupted regions while preserving semantic detail. On ImageNet with LaVAN multi-patch attacks, Filtered-ViT achieves 79.8% clean accuracy and 46.3% robust accuracy under four simultaneous 1\% patches, outperforming existing defenses. Beyond synthetic benchmarks, a real-world case study on radiographic medical imagery shows that Filtered-ViT mitigates natural artifacts such as occlusions and scanner noise without degrading diagnostic content. This establishes Filtered-ViT as the first transformer to demonstrate unified robustness against both adversarial and naturally occurring patch-like disruptions, charting a path toward reliable vision systems in truly high-stakes environments.
- Abstract(参考訳): ディープ・ラーニング・ビジョン・システムは、医療などの安全上重要な領域にますます配備されているが、小さな敵のパッチに弱いままであり、誤分類を引き起こす可能性がある。
既存のディフェンスの多くは単一パッチを前提としており、複数の局所的な障害が発生した場合、シナリオの敵や現実世界のアーティファクトがしばしば悪用される。
本稿では,SMARTベクトルメディアフィルタリング(SMART-VMF)を統合した新しい視覚トランスフォーマアーキテクチャであるFilted-ViTを提案する。
LaVANマルチパッチ攻撃によるImageNetでは、Filtered-ViTは79.8%のクリーンな正確さと46.3%の堅牢な精度を4つの同時1\%パッチで達成し、既存の防御よりも優れていた。
合成ベンチマークの他に、X線医学画像の実際のケーススタディでは、Filtered-ViTは診断内容の劣化を伴わずに、閉塞やスキャナーノイズなどの天然の人工物を軽減している。
これにより、Filted-ViTは、敵対的かつ自然に発生するパッチのような破壊に対して統一的な堅牢性を示す最初のトランスフォーマーとして確立され、真にハイテイクな環境で信頼性の高い視覚システムへの道をグラフ化する。
関連論文リスト
- Vision Transformers: the threat of realistic adversarial patches [48.03238826812818]
ビジョントランスフォーマー(ViT)は、現代の機械学習において大きな注目を集めている。
ViTは、特に敵のパッチに対して、回避攻撃に弱いままである。
本研究では,VT分類モデルに適用したCNNにおける敵攻撃手法の転送可能性について検討した。
論文 参考訳(メタデータ) (2025-09-25T12:36:25Z) - ForensicsSAM: Toward Robust and Unified Image Forgery Detection and Localization Resisting to Adversarial Attack [56.0056378072843]
高い転送性を持つ逆画像は上流モデルでのみ作成可能であることを示す。
本稿では,IFDLフレームワークを組み込んだForensicsSAMを提案する。
論文 参考訳(メタデータ) (2025-08-10T16:03:44Z) - ViTGuard: Attention-aware Detection against Adversarial Examples for Vision Transformer [8.71614629110101]
本稿では,視覚変換器(ViT)モデルを敵攻撃に対して防御するための一般的な検出方法として,ViTGuardを提案する。
ViTGuardはMasked Autoencoder(MAE)モデルを使用して、ランダムにマスキングされたパッチを非マッシュ領域から回収する。
しきい値に基づく検出器は、注意マップやトークン表現(トークン表現)の分類など、ViT特有の特徴を活用して、通常のサンプルと反対のサンプルを区別する。
論文 参考訳(メタデータ) (2024-09-20T18:11:56Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - S-E Pipeline: A Vision Transformer (ViT) based Resilient Classification Pipeline for Medical Imaging Against Adversarial Attacks [4.295229451607423]
Vision Transformer (ViT) は、医用画像における正確な疾患診断の自動化において広く普及している。
ViTは、致命的な疾患の故意の誤分類につながることによって、診断プロセスを妨げる可能性のある敵の攻撃に弱いままである。
本稿では,複数の前処理ステップを実行する新しい画像分類パイプライン,すなわちS-E Pipelineを提案する。
論文 参考訳(メタデータ) (2024-07-23T17:20:40Z) - Towards Robust Vision Transformer via Masked Adaptive Ensemble [23.986968861837813]
対戦訓練(AT)は、敵攻撃に対するビジョントランスフォーマー(ViT)の堅牢性を向上させるのに役立つ。
本稿では,新たに開発した適応アンサンブルでブリッジされた検出器と分類器を含む新しいViTアーキテクチャを提案する。
CIFAR-10における我々のViTアーキテクチャは, それぞれ90.3%, 49.8%の正正正正正正正正正正正正正正正正正正正正正正正正正正正則を達成している。
論文 参考訳(メタデータ) (2024-07-22T05:28:29Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T19:02:24Z) - Investigating Robustness of Adversarial Samples Detection for Automatic
Speaker Verification [78.51092318750102]
本研究は,ASVシステムに対して,別個の検出ネットワークによる敵攻撃から防御することを提案する。
VGGライクな二分分類検出器を導入し、対向サンプルの検出に有効であることが実証された。
論文 参考訳(メタデータ) (2020-06-11T04:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。