論文の概要: Targeted Downstream-Agnostic Attack
- arxiv url: http://arxiv.org/abs/2605.19446v1
- Date: Tue, 19 May 2026 07:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.174714
- Title: Targeted Downstream-Agnostic Attack
- Title(参考訳): 下流からの攻撃を標的とした攻撃
- Authors: Zhuxin Lei, Ziyuan Yang, Yi Zhang,
- Abstract要約: 訓練済みエンコーダは、ダウンストリーム・アグノースティック・アタック(DAA)に脆弱である
本稿では,攻撃者がターゲットとして選択した「脅威画像」と呼ばれる新しいコンポーネントを紹介する。
脅威画像を機能レベルのアンカーとして活用することにより,被害者エンコーダの脆弱性を明らかにするためにタスク非依存のブリッジを構築する。
- 参考スコア(独自算出の注目度): 5.00483763729881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, pre-trained encoders have gained widespread use due to their strong capability in representation extraction. However, they are vulnerable to downstream-agnostic attacks (DAAs). Existing DAA methods operate under a permissive threat model, where an attack is successful if the generated downstream-agnostic adversarial examples (DAEs) change the original prediction, without requiring a specific target. In this paper, we propose a Targeted DAA (TDAA) method under a stricter threat model requiring the attack to be both targeted and downstream-agnostic. Since the downstream task is unknown and encoders do not directly produce predictions, achieving a targeted attack is particularly challenging. To address this, we introduce a novel component termed the 'threat image', pre-selected by the attacker as the target. Specifically, a generator is designed to produce example-specific adversarial perturbations that compel the victim encoder to output identical features for both the DAEs and the threat image. Unlike previous DAA methods that generate a single shared perturbation for all samples, which often fails due to image diversity, our method adopts an example-specific paradigm. This generates tailored perturbations for each image to ensure a high attack success rate and invisibility. By leveraging the threat image as a feature-level anchor, our method builds a task-agnostic bridge to reveal the vulnerabilities of the victim encoder. Extensive experiments on 10 self-supervised methods across 3 benchmark datasets demonstrate the effectiveness of our approach and reveal the pronounced vulnerability of pre-trained encoders. The code will be made publicly available after the review period.
- Abstract(参考訳): 近年, 事前学習エンコーダは, 表現抽出能力の強いため, 広く利用されている。
しかし、ダウンストリーム・アグノースティック・アタック(DAA)に弱い。
既存のDAA手法はパーミッシブ脅威モデルの下で動作し、生成された下流非依存の敵例(DAE)が特定の目標を必要とせず、元の予測を変更すると攻撃が成功する。
本稿では,攻撃対象と下流の双方に依存しないような厳密な脅威モデルに基づくターゲットDAA(TDAA)手法を提案する。
下流タスクは未知であり、エンコーダは直接予測を生成できないため、ターゲット攻撃を達成することは特に困難である。
この問題に対処するため,攻撃者が予め選択した「脅威画像」と呼ばれる新しいコンポーネントを紹介した。
具体的には、ジェネレータは、被害者エンコーダにDAEと脅威画像の両方で同一の特徴を出力するように強制する、サンプル固有の対向的摂動を生成するように設計されている。
全てのサンプルに対して単一の共用摂動を生成する従来のDAA法とは異なり、画像の多様性のためにしばしば失敗するが、本手法ではサンプル固有のパラダイムを採用する。
これにより、画像ごとに調整された摂動が発生し、高い攻撃成功率と可視性を確保する。
脅威画像を機能レベルのアンカーとして活用することにより,被害者エンコーダの脆弱性を明らかにするためにタスク非依存のブリッジを構築する。
3つのベンチマークデータセットにまたがる10の自己教師型手法に関する大規模な実験は、我々のアプローチの有効性を示し、事前訓練されたエンコーダの明らかな脆弱性を明らかにする。
コードはレビュー期間終了後に公開される予定だ。
関連論文リスト
- Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Downstream-agnostic Adversarial Examples [66.8606539786026]
AdvEncoderは、事前訓練されたエンコーダに基づいて、ダウンストリームに依存しない普遍的敵の例を生成するための最初のフレームワークである。
従来の逆数例とは異なり、事前訓練されたエンコーダは分類ラベルではなく特徴ベクトルを出力するのみである。
その結果、攻撃者はトレーニング済みのデータセットやダウンストリームのデータセットを知らずに、ダウンストリームのタスクを攻撃できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T10:16:47Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z) - Wasserstein distributional robustness of neural networks [9.79503506460041]
ディープニューラルネットワークは敵攻撃(AA)に弱いことが知られている
画像認識タスクでは、元の小さな摂動によって画像が誤分類される可能性がある。
本稿では,Wassersteinの分散ロバスト最適化(DRO)技術を用いて問題を再検討し,新しいコントリビューションを得た。
論文 参考訳(メタデータ) (2023-06-16T13:41:24Z) - Object-fabrication Targeted Attack for Object Detection [54.10697546734503]
物体検出の敵攻撃は 標的攻撃と未標的攻撃を含む。
新たなオブジェクトファブリケーションターゲット攻撃モードは、特定のターゲットラベルを持つ追加の偽オブジェクトをファブリケートする検出器を誤解させる可能性がある。
論文 参考訳(メタデータ) (2022-12-13T08:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。