論文の概要: Generation and Simulation of Synthetic Datasets with Copulas
- arxiv url: http://arxiv.org/abs/2203.17250v1
- Date: Wed, 30 Mar 2022 13:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 13:51:42.863313
- Title: Generation and Simulation of Synthetic Datasets with Copulas
- Title(参考訳): コプラを用いた合成データセットの生成とシミュレーション
- Authors: Regis Houssou, Mihai-Cezar Augustin, Efstratios Rappos, Vivien Bonvin
and Stephan Robert-Nicoud
- Abstract要約: 本稿では,数値変数あるいは分類変数からなる合成データセットを生成するための完全かつ信頼性の高いアルゴリズムを提案する。
我々の方法論を2つのデータセットに適用すると、SMOTEやオートエンコーダといった他の手法よりも優れたパフォーマンスが得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new method to generate synthetic data sets based on
copula models. Our goal is to produce surrogate data resembling real data in
terms of marginal and joint distributions. We present a complete and reliable
algorithm for generating a synthetic data set comprising numeric or categorical
variables. Applying our methodology to two datasets shows better performance
compared to other methods such as SMOTE and autoencoders.
- Abstract(参考訳): 本稿では,copulaモデルに基づく合成データセットを生成する新しい手法を提案する。
我々のゴールは、限界分布と結合分布の点で実際のデータに似た代理データを作ることである。
数値変数またはカテゴリ変数からなる合成データセットを生成するための完全かつ信頼性の高いアルゴリズムを提案する。
我々の方法論を2つのデータセットに適用すると、SMOTEやオートエンコーダといった他の手法よりも優れたパフォーマンスが得られる。
関連論文リスト
- MMM and MMMSynth: Clustering of heterogeneous tabular data, and
synthetic data generation [0.0]
我々は、クラスタリングと合成データ生成という異種データセットに関連する2つのタスクに対して、新しいアルゴリズムを提供する。
合成異種データのクラスタ決定において,新しいEMベースのクラスタリングアルゴリズムであるMMMが,標準的なアルゴリズムより優れていることを示す。
また、入力データを事前クラスタリングし、クラスタワイズ合成データを生成する合成データ生成アルゴリズムであるMMMsynthを実証する。
論文 参考訳(メタデータ) (2023-10-30T11:26:01Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time
Series [79.64785804590821]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Towards Semi-Supervised Learning of Automatic Post-Editing:
Data-Synthesis by Infilling Mask with Erroneous Tokens [3.0300104033706394]
マスク付きトークンを誤ったトークンで置換することで,ノイズの多いテキストを生成するための雑音生成に基づくデータ合成手法を提案する。
さらに,2つの異なる合成データを組み合わせたコーパスインターリービングを提案する。
実験結果から, 提案手法により生成した合成データを用いることで, APEの性能が大幅に向上することが明らかとなった。
論文 参考訳(メタデータ) (2022-04-08T07:48:57Z) - On the use of automatically generated synthetic image datasets for
benchmarking face recognition [2.0196229393131726]
GAN(Generative Adversarial Networks)の最近の進歩は、実際のデータセットを合成データセットで置き換える経路を提供する。
現実的な顔画像を合成するためのGAN(Generative Adversarial Networks)の最近の進歩は、実際のデータセットを合成データセットで置き換える経路を提供する。
合成データセットのベンチマーク結果は、良い置換であり、多くの場合、実際のデータセットのベンチマークと同様のエラー率とシステムランキングを提供する。
論文 参考訳(メタデータ) (2021-06-08T09:54:02Z) - SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。
我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。
私たちはこの仕事に4つの重要な貢献をしています。
論文 参考訳(メタデータ) (2020-09-20T16:36:25Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。