論文の概要: Boosting Synthetic Data Generation with Effective Nonlinear Causal
Discovery
- arxiv url: http://arxiv.org/abs/2301.07427v1
- Date: Wed, 18 Jan 2023 10:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:17:52.098757
- Title: Boosting Synthetic Data Generation with Effective Nonlinear Causal
Discovery
- Title(参考訳): 効果的な非線形因果探索による合成データ生成
- Authors: Martina Cinquini, Fosca Giannotti, Riccardo Guidotti
- Abstract要約: ソフトウェアテスト、データプライバシ、不均衡学習、人工知能の説明では、もっともらしいデータサンプルを生成することが不可欠である。
データ生成に広く使用されるアプローチの一般的な前提は、機能の独立性である。
本稿では,変数間の非線形因果関係を発見し,生成時に利用する合成データセット生成手法を提案する。
- 参考スコア(独自算出の注目度): 11.81479419498206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation has been widely adopted in software testing, data
privacy, imbalanced learning, and artificial intelligence explanation. In all
such contexts, it is crucial to generate plausible data samples. A common
assumption of approaches widely used for data generation is the independence of
the features. However, typically, the variables of a dataset depend on one
another, and these dependencies are not considered in data generation leading
to the creation of implausible records. The main problem is that dependencies
among variables are typically unknown. In this paper, we design a synthetic
dataset generator for tabular data that can discover nonlinear causalities
among the variables and use them at generation time. State-of-the-art methods
for nonlinear causal discovery are typically inefficient. We boost them by
restricting the causal discovery among the features appearing in the frequent
patterns efficiently retrieved by a pattern mining algorithm. We design a
framework for generating synthetic datasets with known causalities to validate
our proposal. Broad experimentation on many synthetic and real datasets with
known causalities shows the effectiveness of the proposed method.
- Abstract(参考訳): 合成データ生成は、ソフトウェアテスト、データプライバシ、不均衡学習、人工知能の説明に広く採用されている。
このような状況では、信頼できるデータサンプルを生成することが不可欠である。
データ生成に広く使用されるアプローチの一般的な前提は、機能の独立性である。
しかし、典型的にはデータセットの変数は互いに依存しており、これらの依存関係はデータ生成では考慮されない。
主な問題は変数間の依存関係が通常不明であることだ。
本稿では,変数間の非線形因果関係を探索し,生成時にそれらを利用することのできる表データ用合成データセット生成器を設計する。
非線形因果発見のための最先端の手法は通常非効率である。
パターンマイニングアルゴリズムによって効率的に検索される頻繁なパターンに現れる特徴のうち因果発見を制限することでそれらを強化する。
我々は,提案の妥当性を検証するために,既知の因果関係を持つ合成データセットを生成するフレームワークを設計した。
既知の因果関係を持つ多くの合成および実データセットに関する広範な実験は、提案手法の有効性を示している。
関連論文リスト
- Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - $\texttt{causalAssembly}$: Generating Realistic Production Data for
Benchmarking Causal Discovery [1.3048920509133808]
我々は、因果探索手法のベンチマークをサポートする半合成製造データを生成するシステムを構築した。
我々は、柔軟に推定し、条件分布を表すために分布ランダムな森林を用いる。
このライブラリを用いて、よく知られた因果探索アルゴリズムをベンチマークする方法を示す。
論文 参考訳(メタデータ) (2023-06-19T10:05:54Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - Causal-TGAN: Generating Tabular Data Using Causal Generative Adversarial
Networks [7.232789848964222]
因果モデルCausal Tabular Generative Neural Network (Causal-TGAN) を提案し,合成データを生成する。
シミュレーションデータセットと実データセットの両方の実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2021-04-21T17:59:41Z) - Generating Synthetic Text Data to Evaluate Causal Inference Methods [23.330942019150786]
我々は、既存の世代モデルに適応して、既知の因果効果を持つ合成テキストデータセットを作成するためのフレームワークを開発する。
このフレームワークを用いて,テキストデータから因果効果を推定する4つの手法を実証的に比較した。
論文 参考訳(メタデータ) (2021-02-10T18:53:11Z) - Copula Flows for Synthetic Data Generation [0.5801044612920815]
確率モデルを合成データ生成器として用いることを提案する。
密度推定の手法として,シミュレーションと実データの両方をベンチマークした。
論文 参考訳(メタデータ) (2021-01-03T10:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。