論文の概要: On Privacy Leakage in Tabular Diffusion Models: Influential Factors, Attacker Knowledge, and Metrics
- arxiv url: http://arxiv.org/abs/2605.06835v1
- Date: Thu, 07 May 2026 18:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.550303
- Title: On Privacy Leakage in Tabular Diffusion Models: Influential Factors, Attacker Knowledge, and Metrics
- Title(参考訳): タブラリ拡散モデルにおけるプライバシ漏洩について:インフルエンシャルファクター、アタッカー知識、メトリクス
- Authors: Masoumeh Shafieinejad, D. B. Emerson, Behnoosh Zamanlooy, Elaheh Bassak, Fatemeh Tavakoli, Sara Kodeiri, Marcelo Lotif, Xi He,
- Abstract要約: この研究は、プライバシリークに対するトレーニング設定、合成選択、攻撃者の知識の影響を定量化する。
その結果、敵はトレーニング設定、同一データ分散、あるいは大量の計算資源について完全な知識を持っていなくてもよいことを示した。
- 参考スコア(独自算出の注目度): 2.4355914190236003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular data plays an important role in many fields and industries, including those with elevated privacy considerations and risks. As such, there is a rising interest in generating high-quality synthetic proxies for real tabular data as a means of reducing privacy risk and proprietary data exposure. With tabular diffusion models (TDMs) demonstrating leading performance in synthesizing such data, understanding and measuring the privacy risks associated with these models is imperative. Leveraging state-of-the-art membership inference attacks for TDMs in both black- and white-box settings, this work quantifies the impact of training setup, synthesis choices, and attacker knowledge on privacy leakage. Moreover, the results demonstrate that adversaries need not have perfect knowledge of the training setup, identical data distributions, or massive compute resources to construct successful attacks. Finally, the pitfalls associated with applying heuristic privacy metrics, such as distance-to-closest record, are revealed.
- Abstract(参考訳): タブラルデータは多くの分野や産業において重要な役割を担っている。
そのため、プライバシーリスクとプロプライエタリなデータ露出を減らす手段として、実際の表データに対して高品質な合成プロキシを生成することへの関心が高まっている。
表層拡散モデル(TDM)は、そのようなデータを合成する際の主要な性能を示すため、これらのモデルに関連するプライバシーリスクを理解し、測定することが不可欠である。
ブラックボックス設定とホワイトボックス設定の両方で、TDMの最先端メンバシップ推論攻撃を活用することで、トレーニング設定、合成選択、攻撃者の知識がプライバシリークに与える影響を定量化する。
さらに,攻撃を成功させるためには,トレーニング設定,同一データ分散,あるいは大量の計算資源について十分な知識を持っていなくてもよいことを示した。
最後に、遠近記録などのヒューリスティックなプライバシメトリクスを適用する際の落とし穴を明らかにした。
関連論文リスト
- On the Privacy of LLMs: An Ablation Study [0.0]
大規模言語モデル(LLM)は、対話的および検索強化された設定にますますデプロイされている。
我々は、統一的な脅威モデルと表記を導入し、一連のプライバシー攻撃を再現し、構造化されたアブレーション研究を行う。
論文 参考訳(メタデータ) (2026-05-04T06:06:41Z) - Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective [18.404146545866812]
合成データを生成するための生成機械学習モデルを訓練することは、データ共有におけるプライバシーを高めるための一般的なアプローチとなっている。
これは一般的に機密性の高い個人情報を処理するため、トレーニングされたモデルまたは生成された合成匿名性は、プライバシー上のリスクを生じさせる可能性がある。
有意義な評価は、基礎となる生成モデルの能力と特性を考慮し、最先端のプライバシ攻撃に基礎を置く必要がある、と我々は主張する。
論文 参考訳(メタデータ) (2026-01-30T00:57:41Z) - Quantifying the Privacy Implications of High-Fidelity Synthetic Network Traffic [12.114570800461593]
合成ネットワークトラフィックのための総合的なプライバシー指標を導入する。
本研究は,様々な代表生成モデルの脆弱性を評価し,攻撃成功に影響を与える要因について検討する。
我々の結果は、モデルとデータセット間でのプライバシーリスクのかなりのばらつきを明らかにします。
論文 参考訳(メタデータ) (2025-11-25T17:04:02Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - Privacy Auditing Synthetic Data Release through Local Likelihood Attacks [7.780592134085148]
遺伝子様比攻撃(Gen-LRA)
Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。
その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
論文 参考訳(メタデータ) (2025-08-28T18:27:40Z) - Contrastive Learning-Based privacy metrics in Tabular Synthetic Datasets [40.67424997797513]
合成データは、医療や金融などの分野におけるプライバシー強化技術(PET)として注目されている。
類似度に基づく手法は、トレーニングと合成データとの類似度のレベルを求めることを目的としている。
攻撃に基づく手法は、合成データセットに対する故意の攻撃を誘発する。
論文 参考訳(メタデータ) (2025-02-19T15:52:23Z) - Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data [18.984529269623135]
本研究では,生成データによる微調整が真のプライバシ向上に寄与するか,新たなプライバシリスクを導入するかを検討する。
プライバシリスクを測定するために、Pythia Model SuiteとOpen Pre-trained Transformerを使用します。
論文 参考訳(メタデータ) (2024-09-12T10:14:12Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。