論文の概要: Dashed Line Defense: Plug-And-Play Defense Against Adaptive Score-Based Query Attacks
- arxiv url: http://arxiv.org/abs/2602.08679v1
- Date: Mon, 09 Feb 2026 14:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.264243
- Title: Dashed Line Defense: Plug-And-Play Defense Against Adaptive Score-Based Query Attacks
- Title(参考訳): Dashed Line Defense: 適応型スコアベースのクエリアタックに対するプラグインとプレイの防御
- Authors: Yanzhang Fu, Zizheng Guo, Jizhou Luo,
- Abstract要約: ダッシュラインディフェンス(Dashed Line Defense, DLD)は、適応的なクエリ戦略に対処するために設計された、プラグアンドプレイのポストプロセッシング手法である。
DLDは、観測された損失がどのように真の敵の強さを反映しているかの曖昧さを導入することで、攻撃者がクエリを確実に分析し、適応することを防ぐ。
我々は,DLDの防御能力を理論的に保証し,ImageNetの実験を通じてその有効性を検証する。
- 参考スコア(独自算出の注目度): 3.206339985805037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score-based query attacks pose a serious threat to deep learning models by crafting adversarial examples (AEs) using only black-box access to model output scores, iteratively optimizing inputs based on observed loss values. While recent runtime defenses attempt to disrupt this process via output perturbation, most either require access to model parameters or fail when attackers adapt their tactics. In this paper, we first reveal that even the state-of-the-art plug-and-play defense can be bypassed by adaptive attacks, exposing a critical limitation of existing runtime defenses. We then propose Dashed Line Defense (DLD), a plug-and-play post-processing method specifically designed to withstand adaptive query strategies. By introducing ambiguity in how the observed loss reflects the true adversarial strength of candidate examples, DLD prevents attackers from reliably analyzing and adapting their queries, effectively disrupting the AE generation process. We provide theoretical guarantees of DLD's defense capability and validate its effectiveness through experiments on ImageNet, demonstrating that DLD consistently outperforms prior defenses--even under worst-case adaptive attacks--while preserving the model's predicted labels.
- Abstract(参考訳): スコアベースのクエリアタックは、モデル出力スコアへのブラックボックスアクセスのみを使用して敵対的な例(AE)を作成し、観測された損失値に基づいて入力を反復的に最適化することで、ディープラーニングモデルに深刻な脅威をもたらす。
最近のランタイムディフェンスは出力の摂動によってこのプロセスを妨害しようとするが、ほとんどの場合、モデルパラメータへのアクセスを必要とするか、攻撃者が戦術に適応する際に失敗する。
本稿では,最先端のプラグ・アンド・プレイ・ディフェンスであっても適応攻撃によって回避でき,既存のランタイムディフェンスの限界を明らかにする。
そこで我々はDashed Line Defense (DLD) を提案する。
DLDは、観測された損失がどのように真の敵の強さを反映しているかの曖昧さを導入することで、攻撃者がクエリを確実に分析し、適応することを防ぎ、AE生成プロセスを効果的に破壊する。
我々は,DLDの防御能力を理論的に保証し,その有効性をImageNet上での実験により検証し,DLDが予測されたラベルを保ちながら,最悪の適応攻撃の下でも,先行防御を一貫して上回っていることを示す。
関連論文リスト
- Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - RADEP: A Resilient Adaptive Defense Framework Against Model Extraction Attacks [6.6680585862156105]
モデル抽出攻撃防御(RADEP)のためのレジリエント・アダプティブ・ディフェンス・フレームワークについて紹介する。
RADEPは、抽出の試みに対するモデルレジリエンスを高めるために、プログレッシブ・逆行訓練を採用している。
オーナーシップ検証は、組み込みのウォーターマーキングとバックドアトリガーを通じて実施される。
論文 参考訳(メタデータ) (2025-05-25T23:28:05Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - DTA: Distribution Transform-based Attack for Query-Limited Scenario [11.874670564015789]
敵の例を生成する際、従来のブラックボックス攻撃法は攻撃対象モデルからの十分なフィードバックに依存している。
本稿では,攻撃された動作が限られた数のクエリを実行可能であることをシミュレートするハードラベル攻撃を提案する。
提案したアイデアの有効性とDTAの最先端性を検証する実験を行った。
論文 参考訳(メタデータ) (2023-12-12T13:21:03Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Defending against the Label-flipping Attack in Federated Learning [5.769445676575767]
フェデレーテッド・ラーニング(FL)は、参加する仲間にデザインによる自律性とプライバシを提供する。
ラベルフリッピング(LF)攻撃(英: label-flipping, LF)は、攻撃者がラベルをめくってトレーニングデータに毒を盛る攻撃である。
本稿では、まず、ピアのローカル更新からこれらの勾配を動的に抽出する新しいディフェンスを提案する。
論文 参考訳(メタデータ) (2022-07-05T12:02:54Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。