論文の概要: Synthesizing real-world distributions from high-dimensional Gaussian Noise with Fully Connected Neural Network
- arxiv url: http://arxiv.org/abs/2604.09091v1
- Date: Fri, 10 Apr 2026 08:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.771153
- Title: Synthesizing real-world distributions from high-dimensional Gaussian Noise with Fully Connected Neural Network
- Title(参考訳): 完全結合ニューラルネットワークを用いた高次元ガウス雑音からの実世界分布の合成
- Authors: Joanna Komorniczak,
- Abstract要約: 本研究では,完全連結ニューラルネットワークとランダム化損失関数に基づく時間効率のよい合成データ生成手法を提案する。
25の多様な実世界のデータセットで実施された実験により、提案手法が最先端の生成手法を超越していることが確認された。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The use of synthetic data in machine learning applications and research offers many benefits, including performance improvements through data augmentation, privacy preservation of original samples, and reliable method assessment with fully synthetic data. This work proposes a time-efficient synthetic data generation method based on a fully connected neural network and a randomized loss function that transforms a random Gaussian distribution to approximate a target real-world dataset. The experiments conducted on 25 diverse tabular real-world datasets confirm that the proposed solution surpasses the state-of-the-art generative methods and achieves reference MMD scores orders of magnitude faster than modern deep learning solutions. The experiments involved analyzing distributional similarity, assessing the impact on classification quality, and using PCA for dimensionality reduction, which further enhances data privacy and can boost classification quality while reducing time and memory complexity.
- Abstract(参考訳): 機械学習アプリケーションや研究における合成データの利用は、データ拡張によるパフォーマンス向上、元のサンプルのプライバシ保護、完全合成データによる信頼性の高いメソッドアセスメントなど、多くのメリットを提供する。
本研究では、完全に連結されたニューラルネットワークとランダムなガウス分布を変換してターゲットの実世界のデータセットを近似するランダムな損失関数に基づく、時間効率のよい合成データ生成法を提案する。
実験により,提案手法が最先端の生成手法を超越し,参照MDDスコアを現代のディープラーニングソリューションよりも桁違いに高速に達成できることが確認された。
実験では、分布の類似性の分析、分類品質への影響の評価、次元削減のためのPCAの使用、データのプライバシの向上、時間とメモリの複雑さの低減による分類品質の向上などが行われた。
関連論文リスト
- GO-GenZip: Goal-Oriented Generative Sampling and Hybrid Compression [50.76941829813458]
現在のネットワークデータテレメトリパイプラインは、複数の分散ソースから中央アグリゲータへの、きめ細かいキーパフォーマンス指標(KPI)の巨大なストリームで構成されている。
本研究は、目標指向の観点からネットワークテレメトリを再設計する、ジェネレーティブAI(GenAI)駆動サンプリングとハイブリッド圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-20T16:33:15Z) - Studying the Role of Synthetic Data for Machine Learning-based Wireless Networks Traffic Forecasting [1.1699027359021665]
本稿では,大規模Wi-Fi展開のための一階自動回帰雑音統計量に基づく合成データ生成手法を提案する。
実験結果から, 実データを用いて得られた10~15項目のうち, 平均絶対誤差(MAE)値が得られた。
一般化が必要な場合、合成データ学習モデルは、実データ学習ベースラインと比較して、予測精度を最大50%向上させる。
論文 参考訳(メタデータ) (2026-01-12T15:27:55Z) - A Reinforcement Learning Approach to Synthetic Data Generation [8.293402602656736]
RLSynは患者記録に対するポリシーとしてデータジェネレータをモデル化する新しいフレームワークである。
我々は、プライバシー、実用性、忠実度を評価する上で、最先端のジェネレーティブ・敵ネットワーク(GAN)と拡散に基づく手法を比較検討した。
論文 参考訳(メタデータ) (2025-12-24T19:26:37Z) - Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。
現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。
本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文 参考訳(メタデータ) (2025-10-21T16:16:00Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - Synthetic Information towards Maximum Posterior Ratio for deep learning
on Imbalanced Data [1.7495515703051119]
マイノリティクラスのための合成データを生成することによって,データのバランスをとる手法を提案する。
提案手法は,高エントロピーサンプルを同定することにより,情報領域のバランスを優先する。
実験結果から,提案手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2024-01-05T01:08:26Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。