論文の概要: Model Privacy: A Unified Framework to Understand Model Stealing Attacks and Defenses
- arxiv url: http://arxiv.org/abs/2502.15567v1
- Date: Fri, 21 Feb 2025 16:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:01.169616
- Title: Model Privacy: A Unified Framework to Understand Model Stealing Attacks and Defenses
- Title(参考訳): モデルプライバシ: モデルステアリング攻撃と防御を理解するための統一フレームワーク
- Authors: Ganghua Wang, Yuhong Yang, Jie Ding,
- Abstract要約: この研究は、モデルプライバシ(Model Privacy)と呼ばれるフレームワークを提示し、モデル盗難攻撃と防御を包括的に分析する基盤を提供する。
本稿では,攻撃戦略と防衛戦略の妥当性を定量化する手法を提案し,MLモデルにおけるユーティリティとプライバシの基本的なトレードオフを分析する。
- 参考スコア(独自算出の注目度): 11.939472526374246
- License:
- Abstract: The use of machine learning (ML) has become increasingly prevalent in various domains, highlighting the importance of understanding and ensuring its safety. One pressing concern is the vulnerability of ML applications to model stealing attacks. These attacks involve adversaries attempting to recover a learned model through limited query-response interactions, such as those found in cloud-based services or on-chip artificial intelligence interfaces. While existing literature proposes various attack and defense strategies, these often lack a theoretical foundation and standardized evaluation criteria. In response, this work presents a framework called ``Model Privacy'', providing a foundation for comprehensively analyzing model stealing attacks and defenses. We establish a rigorous formulation for the threat model and objectives, propose methods to quantify the goodness of attack and defense strategies, and analyze the fundamental tradeoffs between utility and privacy in ML models. Our developed theory offers valuable insights into enhancing the security of ML models, especially highlighting the importance of the attack-specific structure of perturbations for effective defenses. We demonstrate the application of model privacy from the defender's perspective through various learning scenarios. Extensive experiments corroborate the insights and the effectiveness of defense mechanisms developed under the proposed framework.
- Abstract(参考訳): 機械学習(ML)の利用は、さまざまな領域でますます広まり、その安全性を理解し確実にすることの重要性を強調している。
重要な懸念の1つは、盗み攻撃をモデル化するMLアプリケーションの脆弱性である。
これらの攻撃には、クラウドベースのサービスやオンチップの人工知能インターフェースに見られるような、限定的なクエリ応答インタラクションを通じて、学習したモデルを回復しようとする敵が関与する。
既存の文献では様々な攻撃・防衛戦略が提案されているが、理論的な基礎と標準化された評価基準が欠如していることが多い。
この研究は、‘モデルプライバシ’と呼ばれるフレームワークを提示し、モデル盗難攻撃と防御を包括的に分析する基盤を提供する。
我々は、脅威モデルと目的のための厳密な定式化を確立し、攻撃戦略と防衛戦略の良さを定量化する方法を提案し、MLモデルにおけるユーティリティとプライバシの基本的なトレードオフを分析する。
開発した理論は,MLモデルのセキュリティ向上,特に効果的な防御のための摂動の攻撃特異的構造の重要性を浮き彫りにした貴重な知見を提供する。
モデルプライバシの適用を,様々な学習シナリオを通じて,ディフェンダーの視点から示す。
大規模実験は,提案枠組み下で開発された防御機構の洞察と有効性を裏付けるものである。
関連論文リスト
- Safety at Scale: A Comprehensive Survey of Large Model Safety [299.801463557549]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - CALoR: Towards Comprehensive Model Inversion Defense [43.2642796582236]
Model Inversion Attacks (MIAs)は、プライバシに敏感なトレーニングデータを、リリースされた機械学習モデルにエンコードされた知識から回復することを目的としている。
MIA分野の最近の進歩は、複数のシナリオにおける攻撃性能を大幅に向上させた。
信頼性適応と低ランク圧縮を統合した堅牢な防御機構を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:44:01Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models [18.624280305864804]
大規模言語モデル(LLM)は自然言語処理(NLP)分野の基盤となっている。
本稿では,LSMを標的とした様々な攻撃形態の包括的調査を行う。
モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
論文 参考訳(メタデータ) (2024-03-03T04:46:21Z) - SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models [74.58014281829946]
本研究では, モデル盗難攻撃, メンバーシップ推論攻撃, パブリックモデルにおけるバックドア検出など, いくつかの代表的な攻撃・防御の有効性を解析する。
実験により,これらの攻撃・防御性能は,自己学習モデルと比較して,公共モデルによって大きく異なることが示された。
論文 参考訳(メタデータ) (2023-10-19T11:49:22Z) - A Framework for Understanding Model Extraction Attack and Defense [48.421636548746704]
我々は,モデルユーティリティとユーザとのトレードオフと,敵の視点によるプライバシについて検討する。
我々は,このようなトレードオフを定量化し,その理論的特性を分析し,最適な敵攻撃・防衛戦略を理解するための最適化問題を開発する。
論文 参考訳(メタデータ) (2022-06-23T05:24:52Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Improving Robustness to Model Inversion Attacks via Mutual Information
Regularization [12.079281416410227]
本稿では,モデル逆転攻撃に対する防御機構について検討する。
MIは、ターゲット機械学習モデルへのアクセスからトレーニングデータ配布に関する情報を推測することを目的とした、プライバシ攻撃の一種である。
我々はMI攻撃に対するMID(Multual Information Regularization based Defense)を提案する。
論文 参考訳(メタデータ) (2020-09-11T06:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。