論文の概要: MIDST Challenge at SaTML 2025: Membership Inference over Diffusion-models-based Synthetic Tabular data
- arxiv url: http://arxiv.org/abs/2603.19185v1
- Date: Thu, 19 Mar 2026 17:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.305341
- Title: MIDST Challenge at SaTML 2025: Membership Inference over Diffusion-models-based Synthetic Tabular data
- Title(参考訳): SaTML 2025におけるMIDSTチャレンジ:拡散モデルに基づく合成語彙データに対する会員推定
- Authors: Masoumeh Shafieinejad, Xi He, Mahshid Alinoori, John Jewell, Sana Ayromlou, Wei Pang, Veronica Chatrath, Garui Sharma, Deval Pandya,
- Abstract要約: 近年の拡散モデルの発展は、幅広いデータタイプに有効である。
拡散モデルの最近の発展は、幅広いデータタイプに有効であるが、そのプライバシーの回復力はほとんど解明されていない。
拡散モデルの最近の発展は、幅広いデータタイプに有効であるが、そのプライバシーの回復性、特にフォーマットについては、ほとんど探索されていない。
- 参考スコア(独自算出の注目度): 5.386263643844387
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Synthetic data is often perceived as a silver-bullet solution to data anonymization and privacy-preserving data publishing. Drawn from generative models like diffusion models, synthetic data is expected to preserve the statistical properties of the original dataset while remaining resilient to privacy attacks. Recent developments of diffusion models have been effective on a wide range of data types, but their privacy resilience, particularly for tabular formats, remains largely unexplored. MIDST challenge sought a quantitative evaluation of the privacy gain of synthetic tabular data generated by diffusion models, with a specific focus on its resistance to membership inference attacks (MIAs). Given the heterogeneity and complexity of tabular data, multiple target models were explored for MIAs, including diffusion models for single tables of mixed data types and multi-relational tables with interconnected constraints. MIDST inspired the development of novel black-box and white-box MIAs tailored to these target diffusion models as a key outcome, enabling a comprehensive evaluation of their privacy efficacy. The MIDST GitHub repository is available at https://github.com/VectorInstitute/MIDST
- Abstract(参考訳): 合成データは、データ匿名化とプライバシ保護データパブリッシングに対する銀の塊解と見なされることが多い。
拡散モデルのような生成モデルから派生した合成データは、プライバシ攻撃に対する耐性を維持しながら、元のデータセットの統計特性を保存することが期待されている。
拡散モデルの最近の発展は、幅広いデータタイプで有効であるが、特に表形式では、そのプライバシーの回復性はほとんど解明されていない。
MIDSTチャレンジは、拡散モデルによって生成された合成表データのプライバシー向上を定量的に評価し、そのメンバーシップ推論攻撃に対する抵抗性(MIA)に焦点を当てた。
表型データの不均一性と複雑性を考慮し、混合データ型単一テーブルの拡散モデルと相互接続制約付きマルチリレーショナルテーブルの拡散モデルを含む、MIAの複数のターゲットモデルについて検討した。
MIDSTは、これらのターゲット拡散モデルに適した新しいブラックボックスとホワイトボックスMIAの開発を重要な結果として刺激し、プライバシーの有効性の包括的な評価を可能にした。
MIDST GitHubリポジトリはhttps://github.com/VectorInstitute/MIDSTで入手できる。
関連論文リスト
- Membership Inference over Diffusion-models-based Synthetic Tabular Data [0.0]
ステップワイズ・エラー比較法に基づいて,クエリベースのメンバーシップ推論攻撃(MIAs)を開発することにより,TabDDPMとTabSynの2つの最近のモデルについて検討する。
本研究は,拡散モデルのプライバシ含意を評価することの重要性を強調し,合成データ生成のための堅牢なプライバシ保存機構のさらなる研究を奨励するものである。
論文 参考訳(メタデータ) (2025-10-16T03:43:11Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - Privacy Auditing Synthetic Data Release through Local Likelihood Attacks [7.780592134085148]
遺伝子様比攻撃(Gen-LRA)
Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。
その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
論文 参考訳(メタデータ) (2025-08-28T18:27:40Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Privacy-preserving datasets by capturing feature distributions with Conditional VAEs [0.11999555634662634]
条件付き変分オートエンコーダ(CVAE)は、大きな事前学習された視覚基盤モデルから抽出された特徴ベクトルに基づいて訓練される。
本手法は, 医用領域と自然画像領域の両方において, 従来のアプローチよりも優れている。
結果は、データスカースおよびプライバシに敏感な環境におけるディープラーニングアプリケーションに大きな影響を与える生成モデルの可能性を強調している。
論文 参考訳(メタデータ) (2024-08-01T15:26:24Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - Generating tabular datasets under differential privacy [0.0]
ディープニューラルネットワークのトレーニングプロセスに差分プライバシー(DP)を導入する。
これにより、結果データの品質とプライバシの間にトレードオフが生じます。
我々は、注意機構を活用する新しいエンドツーエンドモデルを実装している。
論文 参考訳(メタデータ) (2023-08-28T16:35:43Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。