論文の概要: Adversarial Attacks Already Tell the Answer: Directional Bias-Guided Test-time Defense for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.06186v1
- Date: Thu, 04 Jun 2026 13:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.835371
- Title: Adversarial Attacks Already Tell the Answer: Directional Bias-Guided Test-time Defense for Vision-Language Models
- Title(参考訳): 対人攻撃は、すでに答えを告げる: ビジョンランゲージモデルのための方向バイアス誘導型テストタイムディフェンス
- Authors: Liangsheng Liu, Si Chen, Jiamin Wu, Weiwei Feng, Zhixin Cheng, Xiaotian Yin, Wenfei Yang, Tianzhu Zhang,
- Abstract要約: VLM(Vision-Language Models)のテストタイムディフェンスは、大規模なリトレーニングを必要とせず、敵の攻撃を防御するための有望かつ効率的なアプローチとして登場した。
我々は,ディフェンスディビジョンを推定するテストタイムフレームワークであるディビジョンバイアス誘導ディフェンス(DBD)を提案し,ロバスト表現の復元にDBスコアベースの2ストリーム再構築戦略を採用している。
15個のデータセットで実験したところ、DBDはSOTA逆境の堅牢性を達成できるだけでなく、逆直観的な結果も示している。
- 参考スコア(独自算出の注目度): 44.54124778801062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs), such as CLIP, have shown strong zero-shot generalization but remain highly vulnerable to adversarial perturbations, posing serious risks in real-world applications. Test-time defenses for VLMs have recently emerged as a promising and efficient approach to defend against adversarial attacks without requiring costly large-scale retraining. In this work, we uncover a surprising phenomenon: under diverse input transformations, adversarial images in CLIP's feature space consistently shift along a dominant direction, in contrast to the dispersed patterns of clean images. We hypothesize that this dominant shift, termed the Defense Direction, opposes the adversarial shift, pointing features back toward their correct class centers. Building on this insight, we propose Directional Bias-guided Defense (DBD), a test-time framework that estimates the Defense Direction and employs a DB-score-based two-stream reconstruction strategy to recover robust representations. Experiments on 15 datasets demonstrate that DBD not only achieves SOTA adversarial robustness while preserving clean accuracy, but also reveals the counterintuitive result that adversarial accuracy can even surpass clean accuracy. This demonstrates that adversarial perturbations inherently encode directional priors about the true decision boundary.
- Abstract(参考訳): ビジョンランゲージモデル(VLM)は、CLIPのような強力なゼロショットの一般化を示すが、敵の摂動に対して非常に脆弱であり、現実世界のアプリケーションに深刻なリスクをもたらす。
VLMの試験時間防衛は、大規模な再訓練を必要とせず、敵の攻撃を防御するための有望かつ効率的なアプローチとして最近登場した。
多様な入力変換の下で、CLIPの特徴空間の逆画像は、クリーンな画像の分散パターンとは対照的に、支配的な方向に沿って一貫して変化する。
我々は、この支配的なシフトが防衛方向と呼ばれ、敵対的なシフトに反対し、その特徴を彼らの正しい階級中心に向ける、という仮説を立てた。
この知見に基づいて,Defense Directionを推定するテストタイムフレームワークであるDirectional Bias-Guided Defense (DBD)を提案する。
15個のデータセットで実験したところ、DBDはSOTA逆境の堅牢性を達成できるだけでなく、逆直観的な結果も示している。
このことは、逆の摂動が本質的に真の決定境界に関する方向の先行を符号化していることを示している。
関連論文リスト
- BYORn: Bootstrap Your Own Responses to Defend Large Vision-Language Models Against Backdoor Attacks [0.0]
教師付き微調整は、下流タスクに自動回帰視覚言語モデルを適用する主要なアプローチである。
近年の研究では、このパラダイムはバックドア攻撃に対して非常に脆弱であることが示されている。
本研究では, 有害な標的応答が意味論的に理解できない場合が多いという観察に動機づけられた, バックドア・ローバスト微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-06-01T22:58:04Z) - Zero-Sacrifice Persistent-Robustness Adversarial Defense for Pre-Trained Encoders [5.00483763729881]
ZePAD(Zero-Sacrifice Persistent-Robustness Adversarial Defense)を紹介する。
ZePADは、データ特性に対するニューラルネットワーク固有の感度にインスパイアされている。
敵の抵抗を強化するために2つの敵の微調整エンコーダを使用する。
論文 参考訳(メタデータ) (2026-02-10T07:41:34Z) - Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification [52.63017280231648]
人物再識別(ReID)は、歩行者軌道追跡などの現実の多くの応用において、基本的な課題である。
Person ReIDモデルは、歩行者画像に対する知覚不能な摂動が完全に誤った予測を引き起こすような、敵の攻撃に非常に敏感である。
本稿では,2つの相からなる二重不変防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-13T03:56:40Z) - Diversifying Counterattacks: Orthogonal Exploration for Robust CLIP Inference [45.723695657400576]
反撃の多様性とカバレッジの向上は、テスト時間防衛における敵の堅牢性向上に不可欠である。
直交直交対向攻撃(DOC)は、傾き方向と運動量に基づく更新を組み込むことで、対向最適化を強化する。
平均コサイン類似度に基づく指向性感度スコアを,サンプル識別を改善し,反撃強度を適応的に調節することによりDOCを増強する。
論文 参考訳(メタデータ) (2025-11-12T07:40:16Z) - GCP: Guarded Collaborative Perception with Spatial-Temporal Aware Malicious Agent Detection [11.336965062177722]
協調的知覚は、悪意のあるエージェントからの敵対的なメッセージ攻撃に対して脆弱である。
本稿では,既存の単発外乱検出手法を損なう新しい盲検領域混乱(BAC)攻撃を明らかにする。
本稿では、空間的時間的認識による悪意のあるエージェント検出に基づくガード付き協調認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-05T06:03:26Z) - Closing the Gap: Achieving Better Accuracy-Robustness Tradeoffs against Query-Based Attacks [1.54994260281059]
クエリベースの攻撃を緩和する上で、ロバスト性と精度の確固たるトレードオフを、テスト時に効率的に確立する方法を示す。
我々のアプローチは訓練とは無関係であり、理論に支えられている。
論文 参考訳(メタデータ) (2023-12-15T17:02:19Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。