Fugu-MT 論文翻訳(概要): QUEEN: Query Unlearning against Model Extraction

論文の概要: QUEEN: Query Unlearning against Model Extraction

arxiv url: http://arxiv.org/abs/2407.01251v1
Date: Mon, 1 Jul 2024 13:01:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 21:39:54.702389
Title: QUEEN: Query Unlearning against Model Extraction
Title（参考訳）: QUEEN: モデル抽出に対するクエリアンラーニング
Authors: Huajie Chen, Tianqing Zhu, Lefeng Zhang, Bo Liu, Derui Wang, Wanlei Zhou, Minhui Xue,
Abstract要約: モデル抽出攻撃は、ディープラーニングモデルのセキュリティとプライバシに対して、無視できない脅威となる。本稿では,QUEEN(QUEry unlEarNing)を提案する。
参考スコア（独自算出の注目度）: 22.434812818540966
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model extraction attacks currently pose a non-negligible threat to the security and privacy of deep learning models. By querying the model with a small dataset and usingthe query results as the ground-truth labels, an adversary can steal a piracy model with performance comparable to the original model. Two key issues that cause the threat are, on the one hand, accurate and unlimited queries can be obtained by the adversary; on the other hand, the adversary can aggregate the query results to train the model step by step. The existing defenses usually employ model watermarking or fingerprinting to protect the ownership. However, these methods cannot proactively prevent the violation from happening. To mitigate the threat, we propose QUEEN (QUEry unlEarNing) that proactively launches counterattacks on potential model extraction attacks from the very beginning. To limit the potential threat, QUEEN has sensitivity measurement and outputs perturbation that prevents the adversary from training a piracy model with high performance. In sensitivity measurement, QUEEN measures the single query sensitivity by its distance from the center of its cluster in the feature space. To reduce the learning accuracy of attacks, for the highly sensitive query batch, QUEEN applies query unlearning, which is implemented by gradient reverse to perturb the softmax output such that the piracy model will generate reverse gradients to worsen its performance unconsciously. Experiments show that QUEEN outperforms the state-of-the-art defenses against various model extraction attacks with a relatively low cost to the model accuracy. The artifact is publicly available at https://anonymous.4open.science/r/queen implementation-5408/.
Abstract（参考訳）: モデル抽出攻撃は現在、ディープラーニングモデルのセキュリティとプライバシに対して、無視できない脅威となっている。モデルに小さなデータセットを照会し、クエリ結果を基調ラベルとして使用することにより、敵はオリジナルのモデルに匹敵するパフォーマンスの海賊版モデルを盗むことができる。脅威の原因となる2つの重要な問題は、一方で、正確で無制限なクエリは、敵によって得ることができ、一方、敵は、クエリ結果を集約して、モデルステップを段階的に訓練することができる。既存の防衛は、通常、所有権を保護するためにモデルの透かしや指紋を使用する。しかし、これらの方法は、違反の発生を積極的に防ぐことはできない。脅威を軽減するため,我々はQUEEN(QUEry unlEarNing)を提案する。潜在的な脅威を制限するため、QUEENは感度測定を行い、敵が高い性能で海賊モデルを訓練するのを防ぐ摂動を出力する。感度測定では、QUEENは特徴空間におけるクラスタの中心からの距離によって単一のクエリ感度を測定する。高いセンシティブなクエリバッチに対して、QUEENはクエリアンラーニングを適用し、このクエリアンラーニングはグラデーションによって実装され、ソフトマックス出力を摂動させ、海賊版モデルが逆勾配を生成し、その性能を無意識的に悪化させる。実験により,QUEENは,モデル精度に対して比較的低コストで,様々なモデル抽出攻撃に対する最先端の防御性能を上回った。このアーティファクトはhttps://anonymous.4open.science/r/queen implementation-5408/で公開されている。

関連論文リスト

Character-Level Perturbations Disrupt LLM Watermarks [64.60090923837701]
我々は,Large Language Model (LLM)ウォーターマーキングのためのシステムモデルを定式化する。我々は、透かし検出器への限られたアクセスに制約された2つの現実的な脅威モデルの特徴付けを行う。我々は,最も制限的な脅威モデルの下で,キャラクタレベルの摂動が透かし除去に著しく有効であることを実証した。現実的な制約下での透かし除去における文字レベルの摂動の優位性と遺伝的アルゴリズム(GA)の有効性を実験的に検証した。
論文参考訳（メタデータ） (2025-09-11T02:50:07Z)
No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。 EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文参考訳（メタデータ） (2025-05-12T06:19:59Z)
Neural Honeytrace: A Robust Plug-and-Play Watermarking Framework against Model Extraction Attacks [15.588458290074911]
Neural Honeytraceは、モデル抽出攻撃に対する堅牢なプラグアンドプレイ透かしフレームワークである。 4つのデータセットの実験により、Neural Honeytraceは従来の手法よりも効率が良く、適応攻撃に抵抗することを示した。
論文参考訳（メタデータ） (2025-01-16T06:59:20Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。 GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文参考訳（メタデータ） (2023-10-25T03:30:42Z)
One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training [54.622474306336635]
メモリフォールトインジェクション技術を利用したビットフリップ攻撃(BFA)と呼ばれる新たな重み修正攻撃が提案された。本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。
論文参考訳（メタデータ） (2023-08-12T09:34:43Z)
Isolation and Induction: Training Robust Deep Neural Networks against Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文参考訳（メタデータ） (2023-08-02T05:54:01Z)
MOVE: Effective and Harmless Ownership Verification via Embedded External Features [109.19238806106426]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。特に、包括的モデル保護を提供するために、ホワイトボックスとブラックボックスの両方の設定でMOVE法を開発した。
論文参考訳（メタデータ） (2022-08-04T02:22:29Z)
Careful What You Wish For: on the Extraction of Adversarially Trained Models [2.707154152696381]
最近の機械学習(ML)モデルに対する攻撃は、いくつかのセキュリティとプライバシの脅威を引き起こす。本稿では,敵の学習したモデルに対する抽出攻撃を評価する枠組みを提案する。本研究では, 自然学習環境下で得られたモデルよりも, 敵の訓練を受けたモデルの方が抽出攻撃に対して脆弱であることを示す。
論文参考訳（メタデータ） (2022-07-21T16:04:37Z)
DeepSight: Mitigating Backdoor Attacks in Federated Learning Through Deep Model Inspection [26.593268413299228]
フェデレートラーニング(FL)では、複数のクライアントが、データを公開せずに、プライベートデータ上でニューラルネットワーク(NN)モデルを協調的にトレーニングすることができる。 DeepSightは、バックドア攻撃を緩和するための新しいモデルフィルタリングアプローチである。モデルの性能に悪影響を及ぼすことなく、最先端のバックドア攻撃を軽減できることを示す。
論文参考訳（メタデータ） (2022-01-03T17:10:07Z)
RamBoAttack: A Robust Query Efficient Deep Neural Network Decision Exploit [9.93052896330371]
本研究では,局所的な最小値の侵入を回避し,ノイズ勾配からのミスダイレクトを回避できる,堅牢なクエリ効率の高い攻撃法を開発した。 RamBoAttackは、敵クラスとターゲットクラスで利用可能な異なるサンプルインプットに対して、より堅牢である。
論文参考訳（メタデータ） (2021-12-10T01:25:24Z)
Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。 ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文参考訳（メタデータ） (2020-06-05T03:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。