論文の概要: Privacy-Preserving Tabular Synthetic Data Generation Using TabularARGN
- arxiv url: http://arxiv.org/abs/2508.06647v1
- Date: Fri, 08 Aug 2025 18:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.490289
- Title: Privacy-Preserving Tabular Synthetic Data Generation Using TabularARGN
- Title(参考訳): タブラルARGNを用いたプライバシー保護タブラル合成データ生成
- Authors: Andrey Sidorenko, Paul Tiwald,
- Abstract要約: 本稿では,高品質な合成データを生成するニューラルネットワークアーキテクチャであるTabular Auto-Regressive Generative Network(TabularARGN)を紹介する。
離散化に基づく自己回帰手法を用いて、TabularARGNは計算効率を保ちながら高いデータ忠実性を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation has become essential for securely sharing and analyzing sensitive data sets. Traditional anonymization techniques, however, often fail to adequately preserve privacy. We introduce the Tabular Auto-Regressive Generative Network (TabularARGN), a neural network architecture specifically designed for generating high-quality synthetic tabular data. Using a discretization-based auto-regressive approach, TabularARGN achieves high data fidelity while remaining computationally efficient. We evaluate TabularARGN against existing synthetic data generation methods, showing competitive results in statistical similarity, machine learning utility, and detection robustness. We further perform an in-depth privacy evaluation using systematic membership-inference attacks, highlighting the robustness and effective privacy-utility balance of our approach.
- Abstract(参考訳): センシティブなデータセットを安全に共有し分析するためには、合成データ生成が不可欠である。
しかし、従来の匿名化技術は、しばしば適切なプライバシーを維持することができない。
本稿では,高品質な合成表データを生成するニューラルネットワークアーキテクチャであるTabular Auto-Regressive Generative Network(TabularARGN)を紹介する。
離散化に基づく自己回帰手法を用いて、TabularARGNは計算効率を保ちながら高いデータ忠実性を達成する。
我々は,既存の合成データ生成手法に対してTabularARGNを評価し,統計的類似性,機械学習の有用性,ロバスト性の検出において競合する結果を示す。
さらに、組織的メンバーシップ推論攻撃を用いた詳細なプライバシ評価を行い、我々のアプローチの堅牢性と効果的なプライバシ・ユーティリティバランスを明らかにする。
関連論文リスト
- Synthetic Data Generation and Differential Privacy using Tensor Networks' Matrix Product States (MPS) [33.032422801043495]
マトリックス製品状態(MPS)を用いたプライバシー保護のための高品質な合成データ生成手法を提案する。
我々は,MPSベースの生成モデルをCTGAN,VAE,PrivBayesといった最先端モデルと比較した。
以上の結果から,MPSは特に厳格なプライバシー制約の下で,従来のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-08-08T12:14:57Z) - Generative adversarial networks vs large language models: a comparative study on synthetic tabular data generation [0.7373617024876725]
本研究では,タスク固有の微調整や,事前学習のための実世界のデータへのアクセスを必要とせずに,高品質な表形式データを生成する能力を示す。
GPT-4oをベンチマークするために、LLM生成合成データの忠実度とプライバシを条件付き生成対向ネットワーク(CTGAN)で生成されたデータと比較した。
ゼロショットアプローチにもかかわらず、GPT-4oは保存手段においてCTGANよりも優れ、95%の信頼区間、二変量相関、RWDのデータプライバシが増幅されたサンプルサイズでも優れていた。
論文 参考訳(メタデータ) (2025-02-20T12:56:16Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - DP-TLDM: Differentially Private Tabular Latent Diffusion Model [13.153278585144355]
合成データテーブルの高品質化とプライバシーリスクの低減を図るため,DPTLDM,differially Private Tabular Latent Diffusion Modelを提案する。
DPTLDMは,データ類似度の平均35%,下流タスクの実用性15%,データ識別性50%で,合成品質の向上を図っている。
論文 参考訳(メタデータ) (2024-03-12T17:27:49Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - RARE: Robust Masked Graph Autoencoder [45.485891794905946]
Masked graph autoencoder (MGAE) は、有望な自己教師付きグラフ事前学習(SGP)パラダイムとして登場した。
本稿では,ロバストmAsked gRaph autoEncoder (RARE) と呼ばれる新しいSGP手法を提案する。
論文 参考訳(メタデータ) (2023-04-04T03:35:29Z) - A Linear Reconstruction Approach for Attribute Inference Attacks against Synthetic Data [1.5293427903448022]
合成データに対する新しい属性推論攻撃を導入する。
攻撃は任意の記録でも極めて正確であることを示す。
次に、プライバシー保護と統計ユーティリティ保護のトレードオフを評価する。
論文 参考訳(メタデータ) (2023-01-24T14:56:36Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Effective and Privacy preserving Tabular Data Synthesizing [0.0]
複雑な分布を持つ多種多様なデータ型をモデル化できる新しい条件付きテーブルGANアーキテクチャを開発した。
我々は、厳格なプライバシー保証でCTAB-GANをトレーニングし、悪意のあるプライバシー攻撃に対してGANをトレーニングするためのセキュリティを強化する。
論文 参考訳(メタデータ) (2021-08-11T13:55:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。