論文の概要: GEM+: Scalable State-of-the-Art Private Synthetic Data with Generator Networks
- arxiv url: http://arxiv.org/abs/2511.09672v1
- Date: Fri, 14 Nov 2025 01:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.405415
- Title: GEM+: Scalable State-of-the-Art Private Synthetic Data with Generator Networks
- Title(参考訳): GEM+: ジェネレータネットワークを用いたスケーラブルな最先端プライベート合成データ
- Authors: Samuel Maddock, Shripad Gade, Graham Cormode, Will Bullock,
- Abstract要約: 本稿では,AIMの適応計測フレームワークとGEMのスケーラブルなジェネレータネットワークを統合したGEM+を紹介する。
実験の結果,GEM+はAIMよりも実用性とスケーラビリティに優れ,最先端の成果が得られていることがわかった。
- 参考スコア(独自算出の注目度): 9.432150710329607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art differentially private synthetic tabular data has been defined by adaptive 'select-measure-generate' frameworks, exemplified by methods like AIM. These approaches iteratively measure low-order noisy marginals and fit graphical models to produce synthetic data, enabling systematic optimisation of data quality under privacy constraints. Graphical models, however, are inefficient for high-dimensional data because they require substantial memory and must be retrained from scratch whenever the graph structure changes, leading to significant computational overhead. Recent methods, like GEM, overcome these limitations by using generator neural networks for improved scalability. However, empirical comparisons have mostly focused on small datasets, limiting real-world applicability. In this work, we introduce GEM+, which integrates AIM's adaptive measurement framework with GEM's scalable generator network. Our experiments show that GEM+ outperforms AIM in both utility and scalability, delivering state-of-the-art results while efficiently handling datasets with over a hundred columns, where AIM fails due to memory and computational overheads.
- Abstract(参考訳): State-of-the-the-art differentially private synthetic tabular dataは、AIMのような手法で例示される適応的な'select-measure-generate'フレームワークによって定義されている。
これらのアプローチは、低次ノイズ境界を反復的に測定し、グラフィカルモデルに適合して合成データを生成し、プライバシ制約の下でデータ品質を体系的に最適化することを可能にする。
しかし、グラフィカルモデルは、大きなメモリを必要とするため、グラフ構造が変化するたびにスクラッチから再訓練されなければならないため、高次元データには非効率である。
GEMのような最近の手法は、拡張性を改善するためにジェネレータニューラルネットワークを使用することで、これらの制限を克服している。
しかし、実証的な比較は主に小さなデータセットに焦点を当てており、現実の応用性が制限されている。
本稿では,AIMの適応計測フレームワークとGEMのスケーラブルなジェネレータネットワークを統合したGEM+を紹介する。
我々の実験により,GEM+はAIMを実用性とスケーラビリティの両方で上回り,100列以上のデータセットを効率よく処理すると同時に,メモリと計算上のオーバーヘッドによりAIMがフェールすることを示す。
関連論文リスト
- UtilGen: Utility-Centric Generative Data Augmentation with Dual-Level Task Adaptation [70.2215233759276]
UtilGenは、コンピュータビジョンタスクのための新しいユーティリティ中心のデータ拡張フレームワークである。
UtilGenは、常に優れたデータセットを達成しており、平均精度は以前のSOTAよりも3.87%向上している。
データの影響と分布のさらなる分析により、UtilGenはより影響のあるタスク関連合成データを生成することが明らかになった。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Comparison of derivative-free and gradient-based minimization for multi-objective compositional design of shape memory alloys [0.0]
我々は, 機械モデルを代理材として使用し, 合金組成の探索に数値的手法を適用した。
本研究では、物理インフォームドデータ、機械学習モデル、最適化アルゴリズムを組み合わせることで、新しいSMAを探索する実践的なアプローチを示す。
論文 参考訳(メタデータ) (2025-08-19T03:43:35Z) - Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - Instruction-Guided Autoregressive Neural Network Parameter Generation [49.800239140036496]
本稿では,多種多様なタスクやアーキテクチャにまたがるパラメータ合成を統一する自動回帰フレームワークIGPGを提案する。
ニューラルネットワーク重みのトークンを自動回帰的に生成することにより、IGPGは層間コヒーレンスを確保し、モデルとデータセット間の効率的な適応を可能にする。
複数のデータセットの実験により、IGPGは様々な事前訓練されたモデルを単一の柔軟な生成フレームワークに統合することを示した。
論文 参考訳(メタデータ) (2025-04-02T05:50:19Z) - AugGen: Synthetic Augmentation using Diffusion Models Can Improve Recognition [14.525986333650417]
合成データ生成は、外部データセットや事前訓練されたモデルに代わる有望な代替手段を提供する。
AugGenは、ターゲットFRデータセットにのみ訓練されたクラス条件生成モデルから戦略的にサンプリングする。
本研究は, プライバシー制約を緩和し, 認識性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2025-03-14T16:10:21Z) - Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis [0.0]
材料科学における機械学習は、限られた実験データのために困難に直面している。
大規模言語モデル(LLM)を用いて機械学習の性能を向上させる戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T16:04:01Z) - Generative adversarial networks for data-scarce spectral applications [0.0]
合成スペクトルデータ生成分野におけるGANの応用について報告する。
CWGANは,低データ方式の性能向上を図り,サロゲートモデルとして機能することを示す。
論文 参考訳(メタデータ) (2023-07-14T16:27:24Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。