論文の概要: Generative Correlation Manifolds: Generating Synthetic Data with Preserved Higher-Order Correlations
- arxiv url: http://arxiv.org/abs/2510.21610v1
- Date: Fri, 24 Oct 2025 16:15:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.541533
- Title: Generative Correlation Manifolds: Generating Synthetic Data with Preserved Higher-Order Correlations
- Title(参考訳): 生成相関多様体:保存された高次相関による合成データの生成
- Authors: Jens E. d'Hondt, Wieger R. Punter, Odysseas Papapetrou,
- Abstract要約: 本稿では,合成データを生成する計算効率の良い手法である生成相関マニフォールド(GCM)を紹介する。
本手法は,プライバシ保護データ共有,ロバストモデルトレーニング,シミュレーションに応用可能な,合成データ生成への新たなアプローチを提供するものである,と我々は主張する。
- 参考スコア(独自算出の注目度): 4.551615447454767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing need for data privacy and the demand for robust machine learning models have fueled the development of synthetic data generation techniques. However, current methods often succeed in replicating simple summary statistics but fail to preserve both the pairwise and higher-order correlation structure of the data that define the complex, multi-variable interactions inherent in real-world systems. This limitation can lead to synthetic data that is superficially realistic but fails when used for sophisticated modeling tasks. In this white paper, we introduce Generative Correlation Manifolds (GCM), a computationally efficient method for generating synthetic data. The technique uses Cholesky decomposition of a target correlation matrix to produce datasets that, by mathematical proof, preserve the entire correlation structure -- from simple pairwise relationships to higher-order interactions -- of the source dataset. We argue that this method provides a new approach to synthetic data generation with potential applications in privacy-preserving data sharing, robust model training, and simulation.
- Abstract(参考訳): データプライバシの必要性の高まりと、堅牢な機械学習モデルの需要により、合成データ生成技術の開発が加速した。
しかし、現在の手法は単純な要約統計を複製することに成功したが、実世界のシステムに固有の複雑で多変数の相互作用を定義するデータのペアと高階の相関構造を保存できなかった。
この制限は、表面的には現実的だが高度なモデリングタスクに使用すると失敗する合成データにつながる可能性がある。
本稿では,合成データを生成する計算効率の良い手法である生成相関マニフォールド(GCM)を紹介する。
このテクニックは、ターゲットの相関行列のチョレスキー分解を使用してデータセットを生成し、数学的証明によって、ソースデータセットの単純なペア関係から高階の相互作用に至るまで、相関構造全体を保存する。
本手法は,プライバシ保護データ共有,ロバストモデルトレーニング,シミュレーションに応用可能な,合成データ生成への新たなアプローチを提供するものである,と我々は主張する。
関連論文リスト
- Orthogonal Procrustes problem preserves correlations in synthetic data [0.0]
提案手法は,合成データから得られる特徴量,特にピアソン相関量の重要な統計的関係を確実に維持する。
我々のアプローチは、既存の生成モデルを置き換えることではなく、既に生成された合成データセットとピアソンの正確な相関を強制する軽量な後処理ステップである。
論文 参考訳(メタデータ) (2025-10-02T03:14:57Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。
RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-31T21:01:02Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Generation and Simulation of Synthetic Datasets with Copulas [0.0]
本稿では,数値変数あるいは分類変数からなる合成データセットを生成するための完全かつ信頼性の高いアルゴリズムを提案する。
我々の方法論を2つのデータセットに適用すると、SMOTEやオートエンコーダといった他の手法よりも優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2022-03-30T13:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。