論文の概要: Risk In Context: Benchmarking Privacy Leakage of Foundation Models in Synthetic Tabular Data Generation
- arxiv url: http://arxiv.org/abs/2507.17066v1
- Date: Tue, 22 Jul 2025 22:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.798249
- Title: Risk In Context: Benchmarking Privacy Leakage of Foundation Models in Synthetic Tabular Data Generation
- Title(参考訳): コンテキストにおけるリスク: 合成語彙データ生成における基礎モデルのプライバシー漏洩のベンチマーク
- Authors: Jessup Byun, Xiaofeng Lin, Joshua Ward, Guang Cheng,
- Abstract要約: 低データ設定では、しばしば合成データの主要なモチベーションであり、これらのモデルは機密レコードに過度に適合し、頻繁な再トレーニングを必要とする。
最近の研究では、大規模な事前トレーニングされたトランスフォーマーを使用して、インコンテキスト学習(ICL)を通じて行を生成する。
3つの基礎モデル(GPT-4o-mini, LLaMA 3.3 70B, TabPFN v2)を、健康、金融、政策から35の現実世界のテーブルの4つのベースラインに対してベンチマークする。
- 参考スコア(独自算出の注目度): 9.568990880984813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic tabular data is essential for machine learning workflows, especially for expanding small or imbalanced datasets and enabling privacy-preserving data sharing. However, state-of-the-art generative models (GANs, VAEs, diffusion models) rely on large datasets with thousands of examples. In low-data settings, often the primary motivation for synthetic data, these models can overfit, leak sensitive records, and require frequent retraining. Recent work uses large pre-trained transformers to generate rows via in-context learning (ICL), which needs only a few seed examples and no parameter updates, avoiding retraining. But ICL repeats seed rows verbatim, introducing a new privacy risk that has only been studied in text. The severity of this risk in tabular synthesis-where a single row may identify a person-remains unclear. We address this gap with the first benchmark of three foundation models (GPT-4o-mini, LLaMA 3.3 70B, TabPFN v2) against four baselines on 35 real-world tables from health, finance, and policy. We evaluate statistical fidelity, downstream utility, and membership inference leakage. Results show foundation models consistently have the highest privacy risk. LLaMA 3.3 70B reaches up to 54 percentage points higher true-positive rate at 1% FPR than the safest baseline. GPT-4o-mini and TabPFN are also highly vulnerable. We plot the privacy-utility frontier and show that CTGAN and GPT-4o-mini offer better tradeoffs. A factorial study finds that three zero-cost prompt tweaks-small batch size, low temperature, and using summary statistics-can reduce worst-case AUC by 14 points and rare-class leakage by up to 39 points while maintaining over 90% fidelity. Our benchmark offers a practical guide for safer low-data synthesis with foundation models.
- Abstract(参考訳): 合成表データは、マシンラーニングワークフロー、特に小規模または不均衡なデータセットを拡張し、プライバシ保護データ共有を可能にするために不可欠である。
しかし、最先端生成モデル(GAN、VAE、拡散モデル)は数千のサンプルを持つ大規模なデータセットに依存している。
低データ設定では、しばしば合成データの主要なモチベーションであるこれらのモデルは、過度に適合し、機密レコードをリークし、頻繁な再トレーニングを必要とする。
最近の研究では、大規模な事前トレーニングされたトランスフォーマーを使用して、インコンテキスト学習(ICL)を通じて行を生成する。
しかしICLは、テキストでしか研究されていない新たなプライバシーリスクを導入して、シード行を冗長に繰り返す。
表の合成において、このリスクの重大さは、単一の行が不明瞭な人物を識別する可能性がある。
3つの基礎モデル(GPT-4o-mini, LLaMA 3.3 70B, TabPFN v2)の最初のベンチマークで、健康、金融、政策から35の現実世界のテーブルの4つのベースラインに対して、このギャップに対処する。
我々は, 統計的忠実度, 下流ユーティリティ, 会員推測リークを評価した。
結果は、基礎モデルのプライバシーリスクが常に高いことを示している。
LLaMA 3.3 70Bは、最も安全なベースラインよりも、1% FPRで54パーセント高い真陽性率に達する。
GPT-4o-miniとTabPFNも非常に脆弱である。
我々はプライバシーユーティリティフロンティアをプロットし、CTGANとGPT-4o-miniがよりよいトレードオフを提供することを示す。
要因的な研究では、3つのゼロコストプロンプトが小さなバッチサイズ、低温、そしてサマリ統計を用いて、最悪のケースAUCを14ポイント、まれなクラスのリークを39ポイント削減し、90%以上の忠実さを維持している。
我々のベンチマークは、基礎モデルによるより安全な低データ合成のための実用的なガイドを提供する。
関連論文リスト
- The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains [50.66245575710432]
個々のデータポイントからなるペアの嗜好データにより、個々のデータポイントの強度を超える利得が得られることを示す。
私たちの研究は、モデルが一般的に弱いと考えられるペアデータから驚くほどうまく学習できることを示しています。
論文 参考訳(メタデータ) (2025-07-08T17:14:44Z) - No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Generative adversarial networks vs large language models: a comparative study on synthetic tabular data generation [0.7373617024876725]
本研究では,タスク固有の微調整や,事前学習のための実世界のデータへのアクセスを必要とせずに,高品質な表形式データを生成する能力を示す。
GPT-4oをベンチマークするために、LLM生成合成データの忠実度とプライバシを条件付き生成対向ネットワーク(CTGAN)で生成されたデータと比較した。
ゼロショットアプローチにもかかわらず、GPT-4oは保存手段においてCTGANよりも優れ、95%の信頼区間、二変量相関、RWDのデータプライバシが増幅されたサンプルサイズでも優れていた。
論文 参考訳(メタデータ) (2025-02-20T12:56:16Z) - Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling [18.23215026159686]
強力な言語モデル(LM)を用いた高品質な合成データの学習は、LMの推論性能を向上させるための一般的な戦略である。
より強力なSEモデルと弱いが安価なWCモデルによる合成データ生成のトレードオフについて検討する。
論文 参考訳(メタデータ) (2024-08-29T17:32:35Z) - Low-Cost High-Power Membership Inference Attacks [15.240271537329534]
メンバーシップ推論攻撃は、特定のデータポイントがモデルのトレーニングに使用されたかどうかを検出することを目的としている。
我々は,計算オーバーヘッドの少ない,堅牢なメンバシップ推論攻撃を行うための新しい統計的試験を設計する。
RMIAは、機械学習における実用的かつ正確なデータプライバシーリスク評価の基礎を成している。
論文 参考訳(メタデータ) (2023-12-06T03:18:49Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - STORM: Foundations of End-to-End Empirical Risk Minimization on the Edge [42.94785994216686]
経験的リスク最小化はおそらく統計学習において最も影響力のある考え方である。
本稿では,経験的リスク最小化のためのオンラインスケッチSTORMを提案する。
論文 参考訳(メタデータ) (2020-06-25T16:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。