論文の概要: CoLA: A Choice Leakage Attack Framework to Expose Privacy Risks in Subset Training
- arxiv url: http://arxiv.org/abs/2604.12342v1
- Date: Tue, 14 Apr 2026 06:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.283134
- Title: CoLA: A Choice Leakage Attack Framework to Expose Privacy Risks in Subset Training
- Title(参考訳): CoLA: サブセットトレーニングにおけるプライバシリスクの排除を目的とした漏洩攻撃フレームワーク
- Authors: Qi Li, Cheng-Long Wang, Yinzhi Cao, Di Wang,
- Abstract要約: 完全なデータセットではなく、慎重に選択されたデータ上のトレーニングモデルは、現代MLの標準的な前処理になっている。
サブセットトレーニングはプライバシフリーではないことを示します。どのデータが含まれているか、除外されているかという選択は、新たなプライバシサーフェスを導入します。
プライバシリークをサブセット選択で解析する統合フレームワークであるCoLAを提案する。
- 参考スコア(独自算出の注目度): 40.28755876624292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training models on a carefully chosen portion of data rather than the full dataset is now a standard preprocess for modern ML. From vision coreset selection to large-scale filtering in language models, it enables scalability with minimal utility loss. A common intuition is that training on fewer samples should also reduce privacy risks. In this paper, we challenge this assumption. We show that subset training is not privacy free: the very choices of which data are included or excluded can introduce new privacy surface and leak more sensitive information. Such information can be captured by adversaries either through side-channel metadata from the subset selection process or via the outputs of the target model. To systematically study this phenomenon, we propose CoLA (Choice Leakage Attack), a unified framework for analyzing privacy leakage in subset selection. In CoLA, depending on the adversary's knowledge of the side-channel information, we define two practical attack scenarios: Subset-aware Side-channel Attacks and Black-box Attacks. Under both scenarios, we investigate two privacy surfaces unique to subset training: (1) Training-membership MIA (TM-MIA), which concerns only the privacy of training data membership, and (2) Selection-participation MIA (SP-MIA), which concerns the privacy of all samples that participated in the subset selection process. Notably, SP-MIA enlarges the notion of membership from model training to the entire data-model supply chain. Experiments on vision and language models show that existing threat models underestimate subset-training privacy risks: the expanded privacy surface leaks both training and selection membership, extending risks from individual models to the broader ML ecosystem.
- Abstract(参考訳): 完全なデータセットではなく、慎重に選択されたデータ上のトレーニングモデルは、現代MLの標準的な前処理になっている。
ビジョンコアセットの選択から言語モデルにおける大規模フィルタリングに至るまで、最小限のユーティリティ損失でスケーラビリティを実現する。
一般的な直観では、サンプルの少ないトレーニングはプライバシーのリスクを軽減できる。
本稿では,この仮定に挑戦する。
サブセットトレーニングはプライバシフリーではないことを示します。どのデータが含まれているか、除外されているかという選択は、新たなプライバシサーフェスを導入し、より機密性の高い情報を漏洩させます。
このような情報は、サブセット選択プロセスからのサイドチャネルメタデータまたはターゲットモデルの出力を介して、敵によってキャプチャすることができる。
この現象を体系的に研究するために,サブセット選択におけるプライバシー漏洩を解析するための統合フレームワークであるCoLA(Choice Leakage Attack)を提案する。
CoLAでは、サイドチャネル情報に対する敵の知識に基づいて、サブセット対応のサイドチャネルアタックとブラックボックスアタックの2つの実用的な攻撃シナリオを定義している。
いずれのシナリオにおいても,(1)トレーニング会員シップMIA(TM-MIA)と(2)サブセット選択プロセスに参加したすべてのサンプルのプライバシに関する選択参加MIA(SP-MIA)の2つのプライバシ面を調査する。
特にSP-MIAは、モデルトレーニングからデータモデルサプライチェーン全体へのメンバシップの概念を拡大します。
既存の脅威モデルは、トレーニングと選択の両方のメンバシップをリークし、個々のモデルからより広範なMLエコシステムへのリスクを拡大する。
関連論文リスト
- Data-Free Privacy-Preserving for LLMs via Model Inversion and Selective Unlearning [27.452191507918148]
大規模言語モデル(LLM)は、強力な能力を示すが、トレーニングデータから機密性のある個人識別情報(PII)を記憶するリスクがある。
データ自由選択学習(DFSU: Data-free Selective Unlearning)は、LLMから機密性PIIを学習データを必要とせずに除去する新しいプライバシー保護フレームワークである。
提案手法は,まず擬似PIIを言語モデル逆変換により合成し,次にこれらの合成サンプルに対してトークンレベルのプライバシマスクを構築し,最後にトークンレベルの選択的アンラーニングを実行する。
論文 参考訳(メタデータ) (2026-01-22T02:43:12Z) - Unlearned but Not Forgotten: Data Extraction after Exact Unlearning in LLM [31.093224824043087]
学習前モデルからの信号を利用して学習後モデルを導く新しいデータ抽出攻撃を導入する。
シミュレーションされた医療診断データセット上での攻撃の有効性を実証し、正確なアンラーニングに関連する現実世界のプライバシーリスクを明らかにする。
論文 参考訳(メタデータ) (2025-05-30T09:09:33Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Membership Inference Attacks and Privacy in Topic Modeling [3.503833571450681]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:43:42Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Privacy Side Channels in Machine Learning Systems [87.53240071195168]
プライバシサイドチャネルは、システムレベルのコンポーネントを利用してプライベート情報を抽出する攻撃である。
例えば、差分プライベートなトレーニングを適用する前にトレーニングデータを重複させることで、保証可能なプライバシ保証を完全に無効にするサイドチャネルが生成されることを示す。
さらに,学習データセットに含まれる秘密鍵を抽出するために,言語モデルを学習データ再生からブロックするシステムを利用することを示す。
論文 参考訳(メタデータ) (2023-09-11T16:49:05Z) - Knowledge-Enriched Distributional Model Inversion Attacks [49.43828150561947]
モデルインバージョン(MI)攻撃は、モデルパラメータからトレーニングデータを再構成することを目的としている。
本稿では,パブリックデータからプライベートモデルに対する攻撃を行うのに役立つ知識を抽出する,新しい反転型GANを提案する。
実験の結果,これらの手法を組み合わせることで,最先端MI攻撃の成功率を150%向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-10-08T16:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。