論文の概要: TabSynDex: A Universal Metric for Robust Evaluation of Synthetic Tabular Data
- arxiv url: http://arxiv.org/abs/2207.05295v2
- Date: Sat, 8 Jun 2024 08:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 06:17:55.000581
- Title: TabSynDex: A Universal Metric for Robust Evaluation of Synthetic Tabular Data
- Title(参考訳): TabSynDex: 合成語彙データのロバスト評価のためのユニバーサルメトリック
- Authors: Vikram S Chundawat, Ayush K Tarun, Murari Mandal, Mukund Lahoti, Pratik Narang,
- Abstract要約: 合成データのロバストな評価のための新しい普遍計量TabSynDexを提案する。
シングルスコアメトリックであるTabSynDexは、ニューラルネットワークベースのアプローチのトレーニングを観察および評価するためにも使用できる。
- 参考スコア(独自算出の注目度): 14.900342838726747
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Synthetic tabular data generation becomes crucial when real data is limited, expensive to collect, or simply cannot be used due to privacy concerns. However, producing good quality synthetic data is challenging. Several probabilistic, statistical, generative adversarial networks (GANs), and variational auto-encoder (VAEs) based approaches have been presented for synthetic tabular data generation. Once generated, evaluating the quality of the synthetic data is quite challenging. Some of the traditional metrics have been used in the literature but there is lack of a common, robust, and single metric. This makes it difficult to properly compare the effectiveness of different synthetic tabular data generation methods. In this paper we propose a new universal metric, TabSynDex, for robust evaluation of synthetic data. The proposed metric assesses the similarity of synthetic data with real data through different component scores which evaluate the characteristics that are desirable for ``high quality'' synthetic data. Being a single score metric and having an implicit bound, TabSynDex can also be used to observe and evaluate the training of neural network based approaches. This would help in obtaining insights that was not possible earlier. We present several baseline models for comparative analysis of the proposed evaluation metric with existing generative models. We also give a comparative analysis between TabSynDex and existing synthetic tabular data evaluation metrics. This shows the effectiveness and universality of our metric over the existing metrics. Source Code: \url{https://github.com/vikram2000b/tabsyndex}
- Abstract(参考訳): 合成表データ生成は、実際のデータが制限されている場合や、収集する費用がかかる場合、あるいはプライバシー上の懸念により単純に使用できない場合、重要になる。
しかし、高品質な合成データを作ることは困難である。
いくつかの確率的,統計的,生成的敵ネットワーク(GAN)と変分自動エンコーダ(VAE)に基づくアプローチが,合成表データ生成のために提案されている。
一度生成すると、合成データの質を評価するのは非常に難しい。
伝統的なメトリクスのいくつかは文献で使われてきたが、共通の、堅牢で単一のメトリクスが欠如している。
これにより、異なる合成表データ生成手法の有効性を適切に比較することは困難である。
本稿では,合成データのロバストな評価のための新しい普遍計量TabSynDexを提案する。
提案手法は, 合成データと実データとの類似性を, 「高品質」の合成データに望ましい特性を評価するために, 異なる成分スコアを用いて評価する。
単一のスコアメトリックであり、暗黙のバウンドを持つTabSynDexは、ニューラルネットワークベースのアプローチのトレーニングを観察および評価するためにも使用できる。
これは、これまで不可能だった洞察を得るのに役立ちます。
提案手法を既存の生成モデルと比較するためのベースラインモデルをいくつか提示する。
また,TabSynDexと既存の合成表データ評価指標の比較分析を行った。
これは、既存のメトリクスに対するメトリックの有効性と普遍性を示しています。
ソースコード: \url{https://github.com/vikram2000b/tabsyndex}
関連論文リスト
- Benchmarking the Fidelity and Utility of Synthetic Relational Data [1.024113475677323]
我々は、関係データ合成、共通ベンチマークデータセット、および合成データの忠実性と有用性を測定するためのアプローチに関する関連研究についてレビューする。
ベストプラクティスと、新しい堅牢な検出アプローチをベンチマークツールに組み合わせて、6つのメソッドを比較します。
実用面では、モデル予測性能と特徴量の両方において、実データと合成データの適度な相関が観察されるのが一般的である。
論文 参考訳(メタデータ) (2024-10-04T13:23:45Z) - SynthEval: A Framework for Detailed Utility and Privacy Evaluation of Tabular Synthetic Data [3.360001542033098]
SynthEvalは、合成データのための新しいオープンソース評価フレームワークである。
特別な種類の前処理ステップを仮定することなく、分類的および数値的な属性を同等のケアで扱う。
我々のツールは統計的および機械学習技術を利用して、合成データの忠実度とプライバシー保護の整合性を包括的に評価する。
論文 参考訳(メタデータ) (2024-04-24T11:49:09Z) - Structured Evaluation of Synthetic Tabular Data [6.418460620178983]
タブラルデータは一般的には不完全であり、ボリュームは小さく、プライバシー上の懸念からアクセス制限されている。
本稿では,観測データと同じ分布から合成データを抽出すべきと仮定した,単一の数学的目的を持つ評価フレームワークを提案する。
深層学習を利用した構造情報型シンセサイザーとシンセサイザーの評価を行った。
論文 参考訳(メタデータ) (2024-03-15T15:58:37Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Utility Theory of Synthetic Data Generation [12.511220449652384]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文 参考訳(メタデータ) (2023-05-17T07:49:16Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - Generating Realistic Synthetic Relational Data through Graph Variational
Autoencoders [47.89542334125886]
変動型オートエンコーダフレームワークとグラフニューラルネットワークを組み合わせることで,リアルな合成関係データベースを生成する。
結果は、実際のデータベースの構造が結果の合成データセットに正確に保存されていることを示している。
論文 参考訳(メタデータ) (2022-11-30T10:40:44Z) - Synthetic Benchmarks for Scientific Research in Explainable Machine
Learning [14.172740234933215]
我々はXAI-Benchをリリースした。XAI-Benchは、合成データセットと、特徴属性アルゴリズムをベンチマークするためのライブラリである。
実世界のデータセットとは異なり、合成データセットは条件付き期待値の効率的な計算を可能にする。
いくつかの評価指標にまたがって一般的な説明可能性手法をベンチマークし、一般的な説明者にとっての障害モードを特定することで、ライブラリのパワーを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。