論文の概要: Theoretically Principled Trade-off for Stateful Defenses against
Query-Based Black-Box Attacks
- arxiv url: http://arxiv.org/abs/2307.16331v1
- Date: Sun, 30 Jul 2023 22:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 16:17:26.729709
- Title: Theoretically Principled Trade-off for Stateful Defenses against
Query-Based Black-Box Attacks
- Title(参考訳): クエリベースのブラックボックス攻撃に対するステートフル防御のための理論的に原則化されたトレードオフ
- Authors: Ashish Hooda, Neal Mangaokar, Ryan Feng, Kassem Fawaz, Somesh Jha,
Atul Prakash
- Abstract要約: 我々は,ステートフルディフェンスに対する検出と偽陽性率のトレードオフを理論的に評価する。
このトレードオフがブラックボックス攻撃の収束に与える影響を分析する。
- 参考スコア(独自算出の注目度): 26.905553663353825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial examples threaten the integrity of machine learning systems with
alarming success rates even under constrained black-box conditions. Stateful
defenses have emerged as an effective countermeasure, detecting potential
attacks by maintaining a buffer of recent queries and detecting new queries
that are too similar. However, these defenses fundamentally pose a trade-off
between attack detection and false positive rates, and this trade-off is
typically optimized by hand-picking feature extractors and similarity
thresholds that empirically work well. There is little current understanding as
to the formal limits of this trade-off and the exact properties of the feature
extractors/underlying problem domain that influence it. This work aims to
address this gap by offering a theoretical characterization of the trade-off
between detection and false positive rates for stateful defenses. We provide
upper bounds for detection rates of a general class of feature extractors and
analyze the impact of this trade-off on the convergence of black-box attacks.
We then support our theoretical findings with empirical evaluations across
multiple datasets and stateful defenses.
- Abstract(参考訳): 敵対的な例は、制約されたブラックボックス条件下であっても、成功率を脅かすような機械学習システムの完全性を脅かす。
ステートフルな防御は効果的な対策として現れ、最近のクエリのバッファを維持し、類似度が高い新しいクエリを検出することで潜在的な攻撃を検出する。
しかしながら、これらの防御は基本的に攻撃検出と偽陽性率のトレードオフを生じさせ、このトレードオフは典型的には、手探りの特徴抽出器と、経験的にうまく機能する類似性閾値によって最適化される。
このトレードオフの形式的限界とそれに影響を与える特徴抽出/アンダーライジング問題領域の正確な性質について、現在の理解はほとんどない。
本研究は,ステートフルディフェンスに対する検出と偽陽性率のトレードオフを理論的に評価することで,このギャップに対処することを目的とする。
我々は,一般的な特徴抽出器の検知率の上限を提供し,このトレードオフがブラックボックス攻撃の収束に与える影響を分析する。
次に、複数のデータセットにわたる経験的評価とステートフルな防御で理論的な結果を支持する。
関連論文リスト
- The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Certified Causal Defense with Generalizable Robustness [14.238441767523602]
本稿では,認証防衛における一般化問題に因果的視点を取り入れた新しい認証防衛フレームワークGLEANを提案する。
本フレームワークは,因果関係と入力とラベル間の素因果関係を乱すために,認証因果関係学習コンポーネントを統合する。
そこで我々は,潜在因果的要因に対する敵対的攻撃に対処するために,因果的に認証された防衛戦略を設計する。
論文 参考訳(メタデータ) (2024-08-28T00:14:09Z) - PuriDefense: Randomized Local Implicit Adversarial Purification for
Defending Black-box Query-based Attacks [15.842917276255141]
ブラックボックスクエリベースの攻撃は機械学習・アズ・ア・サービス(ML)システムに脅威を与える。
低レベルの推論コストで軽量な浄化モデルのアンサンブルでランダムなパッチワイズ処理を施した効率的な防御機構であるPuriDefenseを提案する。
我々の理論的分析は、ランダム性を浄化に組み込むことで、クエリベースの攻撃の収束を遅くすることを示唆している。
論文 参考訳(メタデータ) (2024-01-19T09:54:23Z) - AdvFAS: A robust face anti-spoofing framework against adversarial
examples [24.07755324680827]
本稿では,2つの組み合わされたスコアを利用して,正しく検出された顔画像と誤検出された顔画像とを正確に識別する,頑健な顔アンチスプーフィングフレームワークAdvFASを提案する。
実験では、さまざまなアタック、データセット、バックボーンなど、さまざまな設定でフレームワークの有効性を実証しています。
論文 参考訳(メタデータ) (2023-08-04T02:47:19Z) - Towards Fair Classification against Poisoning Attacks [52.57443558122475]
攻撃者が少数のサンプルを訓練データに挿入できる毒殺シナリオについて検討する。
本稿では,従来の防犯手法に適合する汎用的かつ理論的に保証された枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-18T00:49:58Z) - Attack-Agnostic Adversarial Detection [13.268960384729088]
本稿では,2つの側面において,敵対的不可知論による統計的偏差を定量化する。
本手法は, CIFAR10, CIFAR100, SVHNでそれぞれ94.9%, 89.7%, 94.6%のROC AUCを達成でき, 攻撃のほとんどにおいて敵の例で訓練した対向検出器と同等の性能を有することを示す。
論文 参考訳(メタデータ) (2022-06-01T13:41:40Z) - ADC: Adversarial attacks against object Detection that evade Context
consistency checks [55.8459119462263]
文脈整合性チェックさえも、適切に構築された敵の例に対して脆弱であることを示す。
このような防御を覆す実例を生成するための適応型フレームワークを提案する。
我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。
論文 参考訳(メタデータ) (2021-10-24T00:25:09Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Advocating for Multiple Defense Strategies against Adversarial Examples [66.90877224665168]
ニューラルネットワークを$ell_infty$敵の例から保護するために設計された防御機構が、性能の低下を実証的に観察されている。
本稿では,この観測を検証した幾何学的解析を行う。
そこで本研究では,この現象の実際的影響を説明するための実証的な知見を多数提示する。
論文 参考訳(メタデータ) (2020-12-04T14:42:46Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。