論文の概要: Membership Inference Attack Should Move On to Distributional Statistics for Distilled Generative Models
- arxiv url: http://arxiv.org/abs/2502.02970v2
- Date: Mon, 09 Jun 2025 01:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 01:40:32.526456
- Title: Membership Inference Attack Should Move On to Distributional Statistics for Distilled Generative Models
- Title(参考訳): 蒸留生成モデルにおける分布統計への会員推定攻撃
- Authors: Muxing Li, Zesheng Ye, Yixuan Li, Andy Song, Guangquan Zhang, Feng Liu,
- Abstract要約: 大規模生成モデルの訓練における不正なデータ使用を検出するために,MIA(メンバシップ推論攻撃)が有効であることが証明された。
従来のMIAは蒸留生成モデル(すなわち学生モデル)に対して失敗し,その効率性はますます向上している。
蒸留生成モデルを用いて不許可なトレーニングデータを検出するための分布型MIAの3つの原理を提案する。
- 参考スコア(独自算出の注目度): 31.834967019893227
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To detect unauthorized data usage in training large-scale generative models (e.g., ChatGPT or Midjourney), membership inference attacks (MIA) have proven effective in distinguishing a single training instance (a member) from a single non-training instance (a non-member). This success is mainly credited to a memorization effect: models tend to perform better on a member than a non-member. However, we find that standard MIAs fail against distilled generative models (i.e., student models) that are increasingly deployed in practice for efficiency (e.g., ChatGPT 4o-mini). Trained exclusively on data generated from a large-scale model (a teacher model), the student model lacks direct exposure to any members (teacher's training data), nullifying the memorization effect that standard MIAs rely on. This finding reveals a serious privacy loophole, where generation-service providers could deploy a student model whose teacher was potentially trained on unauthorized data, yet claim the deployed model is clean because it was not directly trained on such data. Hence, are distilled models inherently unauditable for upstream privacy violations, and should we discard them when we care about privacy? We contend no, as we uncover a memory chain connecting the student and teacher's member data: the distribution of student-generated data aligns more closely with the distribution of the teacher's members than with non-members, thus we can detect unauthorized data usage even when direct instance-level memorization is absent. This leads us to posit that MIAs on distilled generative models should shift from instance-level scores to distribution-level statistics. We further propose three principles of distribution-based MIAs for detecting unauthorized training data through distilled generative models, and validate our position through an exemplar framework. We lastly discuss the implications of our position.
- Abstract(参考訳): 大規模生成モデル(例えばChatGPTやMidjourney)のトレーニングにおいて、不正なデータ使用を検出するために、メンバー推論攻撃(MIA)は、単一のトレーニングインスタンス(メンバー)と単一のトレーニングインスタンス(非メンバー)を区別するのに有効であることが証明されている。
この成功は、主に暗記効果(remorization effect: モデルが非メンバーよりもメンバーでより良く機能する傾向にある)と評価されている。
しかし, 標準MIAは, 効率向上のために実用化されている蒸留生成モデル(学生モデル)に対して失敗する(ChatGPT 4o-miniなど)。
大規模なモデル(教師モデル)から生成されたデータにのみ訓練された学生モデルは、いかなるメンバー(教師のトレーニングデータ)にも直接露出せず、標準MIAが依存する記憶効果を無効化する。
この発見は、世代サービスプロバイダが教師が無許可のデータでトレーニングされた可能性のある学生モデルをデプロイできるという深刻なプライバシー上の欠陥を露呈する。
したがって、蒸留されたモデルは本質的に上流のプライバシー侵害には不可知であり、プライバシに関心があるときに捨てるべきなのか?
学生が生成したデータの分布は、非会員よりも教師のメンバの分布と密接に一致しているため、直接のインスタンスレベルの記憶がない場合でも、不正なデータの使用を検出することができる。
これにより, 蒸留生成モデル上でのMIAは, インスタンスレベルのスコアから分布レベルの統計にシフトすべきである,という仮説が導かれる。
さらに, 蒸留生成モデルを用いて不正なトレーニングデータを検出するための分布型MIAの3つの原理を提案し, 優れたフレームワークを用いてその位置を検証した。
最後に、私たちの立場の意味について論じる。
関連論文リスト
- Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Blind Baselines Beat Membership Inference Attacks for Foundation Models [24.010279957557252]
メンバーシップ推論(MI)攻撃は、データサンプルが機械学習モデルのトレーニングに使用されたかどうかを判断しようとする。
未知のWebデータに基づいてトレーニングされた基礎モデルに対して、MI攻撃は著作権のあるトレーニング材料の検出、テストセットの汚染の測定、あるいは監査マシンのアンラーニングに使用できる。
基礎モデルに対するMI攻撃の評価は, 異なる分布からメンバーや非メンバーをサンプリングするため, 欠陥があることが示されている。
論文 参考訳(メタデータ) (2024-06-23T19:40:11Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Investigating Membership Inference Attacks under Data Dependencies [26.70764798408236]
プライバシーに敏感なデータに基づく機械学習モデルのトレーニングが、プライバシーに深刻な影響を及ぼす可能性のある新たな攻撃の扉を開いた。
そのような攻撃の1つは、メンバーシップ推論攻撃 (MIA) であり、特定のデータポイントがモデルをトレーニングするために使用されたかどうかを公開する。
我々は、訓練セットのすべてのメンバーと非メンバーが独立して同一に分散しているという制限的な仮定の下で、防衛を評価した。
論文 参考訳(メタデータ) (2020-10-23T00:16:46Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z) - How Does Data Augmentation Affect Privacy in Machine Learning? [94.52721115660626]
拡張データの情報を活用するために,新たなMI攻撃を提案する。
モデルが拡張データで訓練された場合、最適な会員推定値を確立する。
論文 参考訳(メタデータ) (2020-07-21T02:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。