論文の概要: A Cryptographic Perspective on Mitigation vs. Detection in Machine Learning
- arxiv url: http://arxiv.org/abs/2504.20310v1
- Date: Mon, 28 Apr 2025 23:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.695749
- Title: A Cryptographic Perspective on Mitigation vs. Detection in Machine Learning
- Title(参考訳): 機械学習における緩和対検出の暗号的視点
- Authors: Greg Gluch, Shafi Goldwasser,
- Abstract要約: 我々は検出による防御(DbD)と緩和による防御(DbM)を定義する。
DbDの達成とDbMの達成はML分類タスクに等価であることを示す。
本稿では、DbDとDbMの分離を、緩和によって防御できるが検出により防御が不可能な生成学習タスクを示すことによって示す。
- 参考スコア(独自算出の注目度): 2.8437395946408124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we initiate a cryptographically inspired theoretical study of detection versus mitigation of adversarial inputs produced by attackers of Machine Learning algorithms during inference time. We formally define defense by detection (DbD) and defense by mitigation (DbM). Our definitions come in the form of a 3-round protocol between two resource-bounded parties: a trainer/defender and an attacker. The attacker aims to produce inference-time inputs that fool the training algorithm. We define correctness, completeness, and soundness properties to capture successful defense at inference time while not degrading (too much) the performance of the algorithm on inputs from the training distribution. We first show that achieving DbD and achieving DbM are equivalent for ML classification tasks. Surprisingly, this is not the case for ML generative learning tasks, where there are many possible correct outputs that can be generated for each input. We show a separation between DbD and DbM by exhibiting a generative learning task for which is possible to defend by mitigation but is provably impossible to defend by detection under the assumption that the Identity-Based Fully Homomorphic Encryption (IB-FHE), publicly-verifiable zero-knowledge Succinct Non-Interactive Arguments of Knowledge (zk-SNARK) and Strongly Unforgeable Signatures exist. The mitigation phase uses significantly fewer samples than the initial training algorithm.
- Abstract(参考訳): 本稿では,機械学習アルゴリズムの攻撃者が推論時間中に生成した敵入力の検出と軽減に関する理論的研究を開始する。
我々は,検出による防御(DbD)と緩和による防御(DbM)を正式に定義する。
私たちの定義は、トレーナー/ディフェンダーとアタッカーの2つのリソースバウンドパーティ間の3ラウンドのプロトコルという形になっています。
攻撃者は、トレーニングアルゴリズムを騙す推論時間入力を生成することを目指している。
我々は,トレーニング分布からの入力に対して,アルゴリズムの性能を劣化させることなく,予測時の防御を成功させるための正当性,完全性,音響性を定義した。
まず,DbDの達成とDbMの達成がML分類タスクに等価であることを示す。
驚くべきことに、ML生成学習タスクには、入力毎に生成可能な正確な出力が多数存在する。
本稿では,DbD と DbM の分離を,IDベースの完全同型暗号化 (IB-FHE) や,公に検証可能なゼロ知識保証 (zk-SNARK) や強無形署名 (Songly Unforgeable Signatures) の存在を前提として,生成学習タスクを示すことによって,DbD と DbM の分離を示す。
緩和フェーズは、初期トレーニングアルゴリズムよりもはるかに少ないサンプルを使用する。
関連論文リスト
- Improving Adversarial Robustness via Decoupled Visual Representation Masking [65.73203518658224]
本稿では,特徴分布の観点から,ロバストな特徴の2つの新しい特性を強調した。
現状の防衛手法は、上記の2つの問題にうまく対処することを目的としている。
具体的には、分離された視覚的表現マスキングに基づく、シンプルだが効果的な防御法を提案する。
論文 参考訳(メタデータ) (2024-06-16T13:29:41Z) - Adversarial Machine Unlearning [26.809123658470693]
本稿では,機械学習モデルに対する特定のトレーニングデータの影響を取り除くことを目的とした,機械学習の課題に焦点を当てた。
伝統的に、未学習アルゴリズムの開発は、ある種のプライバシー脅威である会員推論攻撃(MIA)と並行して実行される。
未学習アルゴリズムの設計にMIAを統合するゲーム理論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T20:07:22Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Towards Robust Domain Generation Algorithm Classification [1.4542411354617986]
我々は32個のホワイトボックス攻撃を実装し、そのうち19個は非常に効果的であり、未硬化の分類器に対して$approx$100%の偽陰性率(FNR)を誘導する。
本稿では, 対角線空間ベクトルと離散化された対角線領域を利用して, 強靭性を大幅に向上させる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T11:56:29Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Enhancing Adversarial Robustness in Low-Label Regime via Adaptively
Weighted Regularization and Knowledge Distillation [1.675857332621569]
ラベル付きデータが少ない半教師付き対人訓練について検討した。
提案する正則化項と知識蒸留を組み合わせた半教師付き対角訓練アルゴリズムを開発した。
提案アルゴリズムは,既存のアルゴリズムと比較して,最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-08-08T05:48:38Z) - Wasserstein distributional robustness of neural networks [9.79503506460041]
ディープニューラルネットワークは敵攻撃(AA)に弱いことが知られている
画像認識タスクでは、元の小さな摂動によって画像が誤分類される可能性がある。
本稿では,Wassersteinの分散ロバスト最適化(DRO)技術を用いて問題を再検討し,新しいコントリビューションを得た。
論文 参考訳(メタデータ) (2023-06-16T13:41:24Z) - Detection and Mitigation of Byzantine Attacks in Distributed Training [24.951227624475443]
ワーカノードの異常なビザンチン挙動は、トレーニングを脱線させ、推論の品質を損なう可能性がある。
最近の研究は、幅広い攻撃モデルを検討し、歪んだ勾配を補正するために頑健な集約と/または計算冗長性を探究している。
本研究では、強力な攻撃モデルについて検討する:$q$ omniscient adversaries with full knowledge of the defense protocol that can change from iteration to iteration to weak one: $q$ randomly selected adversaries with limited collusion abilities。
論文 参考訳(メタデータ) (2022-08-17T05:49:52Z) - Exploring Memorization in Adversarial Training [58.38336773082818]
本稿では, 能力, 収束, 一般化, 特に強靭なオーバーフィッティングの深い理解を促進するための, 対人訓練(AT)における記憶効果について検討する。
本稿では,詳細な記憶分析を動機とした新たな緩和アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:39:57Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - Anomaly Detection-Based Unknown Face Presentation Attack Detection [74.4918294453537]
異常検出に基づくスプーフ攻撃検出は、顔提示攻撃検出の最近の進歩である。
本稿では,異常検出に基づくスプーフ攻撃検出のためのディープラーニングソリューションを提案する。
提案手法はCNNの表現学習能力の恩恵を受け,fPADタスクの優れた特徴を学習する。
論文 参考訳(メタデータ) (2020-07-11T21:20:55Z) - On Adversarial Examples and Stealth Attacks in Artificial Intelligence
Systems [62.997667081978825]
本稿では,汎用人工知能(AI)システムに対する2種類の多元性行動の評価と分析を行うための公式な枠組みを提案する。
最初のクラスは、逆例を含み、誤分類を引き起こす入力データの小さな摂動の導入を懸念する。
第2のクラスは、ここで初めて導入され、ステルス攻撃と名付けられたもので、AIシステム自体に対する小さな摂動を伴う。
論文 参考訳(メタデータ) (2020-04-09T10:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。