論文の概要: Evaluating Synthetically Generated Data from Small Sample Sizes: An Experimental Study
- arxiv url: http://arxiv.org/abs/2211.10760v4
- Date: Mon, 11 Nov 2024 11:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:05:56.175882
- Title: Evaluating Synthetically Generated Data from Small Sample Sizes: An Experimental Study
- Title(参考訳): 小型試料からの合成データの評価 : 実験的検討
- Authors: Javier Marin,
- Abstract要約: 我々は、仮説テストに幾何、トポロジ、頑健な統計の組み合わせを用いて、生成されたデータの「妥当性」を評価する。
また,この結果と,大規模なサンプルサイズデータについて文献で記述した卓越したグローバルな測定方法とを対比した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This work proposes a method to evaluate the similarity between low-sample tabular data and synthetically generated data with a larger number of samples than the original. The technique is known to as data augmentation. However, significance values derived from non-parametric tests are questionable when the sample size is limited. Our approach uses a combination of geometry, topology, and robust statistics for hypothesis testing to evaluate the "validity" of generated data. We additionally contrast the findings with prominent global metric practices described in the literature for large sample size data.
- Abstract(参考訳): 本研究は, サンプル数の多い低サンプル表データと合成データとの類似性を評価する手法を提案する。
この技術はデータ拡張として知られている。
しかし, サンプルサイズが制限された場合には, 非パラメトリック試験から得られた有意値が疑問視される。
提案手法では, 仮説検定のための幾何, トポロジ, 頑健な統計の組み合わせを用いて, 生成データの「妥当性」を評価する。
また,この結果と,大規模なサンプルサイズデータについて文献で記述した卓越したグローバルな測定方法とを対比した。
関連論文リスト
- Convex space learning for tabular synthetic data generation [0.0]
本稿では,合成サンプルを生成可能なジェネレータと識別器コンポーネントを備えたディープラーニングアーキテクチャを提案する。
NextConvGeNが生成した合成サンプルは、実データと合成データの分類とクラスタリング性能をよりよく保存することができる。
論文 参考訳(メタデータ) (2024-07-13T07:07:35Z) - Exploring the Impact of Synthetic Data for Aerial-view Human Detection [17.41001388151408]
航空ビューによる人間の検出は、より多様な人間の外観を捉えるために、大規模なデータに対する大きな需要がある。
合成データはデータを拡張するのに十分なリソースだが、実際のデータとのドメインギャップは、トレーニングで使用する上で最大の障害である。
論文 参考訳(メタデータ) (2024-05-24T04:19:48Z) - Preserving correlations: A statistical method for generating synthetic
data [0.0]
本稿では,統計的に代表される合成データを生成する手法を提案する。
主なゴールは、元のデータセットに存在する特徴の相関関係を合成データセットで維持できるようにすることである。
本稿では,本アルゴリズムを原データセットの解析と合成データ点の生成に用いたアルゴリズムについて詳述する。
論文 参考訳(メタデータ) (2024-03-03T10:35:46Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。
ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。
機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文 参考訳(メタデータ) (2022-11-23T11:09:52Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。