Fugu-MT 論文翻訳(概要): An experimental study on Synthetic Tabular Data Evaluation

論文の概要: An experimental study on Synthetic Tabular Data Evaluation

arxiv url: http://arxiv.org/abs/2211.10760v1
Date: Sat, 19 Nov 2022 18:18:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 21:43:06.952846
Title: An experimental study on Synthetic Tabular Data Evaluation
Title（参考訳）: 合成表データ評価に関する実験的研究
Authors: Javier Marin
Abstract要約: 文献で最もよく使われているグローバルメトリクスを評価した。本稿では,データのトポロジカルシグネチャ解析に基づく新しい手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In this paper, we present the findings of various methodologies for measuring the similarity of synthetic data generated from tabular data samples. We particularly apply our research to the case where the synthetic data has many more samples than the real data. This task has a special complexity: validating the reliability of this synthetically generated data with a much higher number of samples than the original. We evaluated the most commonly used global metrics found in the literature. We introduced a novel approach based on the data's topological signature analysis. Topological data analysis has several advantages in addressing this latter challenge. The study of qualitative geometric information focuses on geometric properties while neglecting quantitative distance function values. This is especially useful with high-dimensional synthetic data where the sample size has been significantly increased. It is comparable to introducing new data points into the data space within the limits set by the original data. Then, in large synthetic data spaces, points will be much more concentrated than in the original space, and their analysis will become much more sensitive to both the metrics used and noise. Instead, the concept of "closeness" between points is used for qualitative geometric information. Finally, we suggest an approach based on data Eigen vectors for evaluating the level of noise in synthetic data. This approach can also be used to assess the similarity of original and synthetic data.
Abstract（参考訳）: 本稿では,表データから生成された合成データの類似性を測定するための様々な手法について述べる。特に本研究は,合成データが実データよりも多くのサンプルを持つ場合に適用する。このタスクには特別な複雑さがあり、この合成されたデータの信頼性を元のデータよりもはるかに多くのサンプルで検証する。文献に見られる最も一般的なグローバル指標を評価した。我々は,データの位相的シグネチャ解析に基づく新しい手法を導入した。トポロジカルデータ分析は後者の課題に対処する上でいくつかの利点がある。定性的幾何情報の研究は、量的距離関数値を無視しながら幾何学的性質に焦点を当てている。これは試料サイズが著しく増大した高次元合成データに特に有用である。これは、元のデータによって設定された制限内でデータ空間に新しいデータポイントを導入するのに匹敵する。そして、大規模な合成データ空間では、ポイントは元の空間よりもはるかに集中し、それらの分析は使用されるメトリクスとノイズの両方にはるかに敏感になる。代わりに、点間の「近さ」の概念は定性的幾何学的情報に使用される。最後に,合成データのノイズレベルを評価するために,データ固有ベクトルに基づく手法を提案する。このアプローチは、オリジナルデータと合成データの類似性を評価するためにも使用できる。

関連論文リスト

Refereeing the Referees: Evaluating Two-Sample Tests for Validating Generators in Precision Sciences [0.0]
1次元テストは、他の多変量メトリクスに匹敵する感度のレベルを提供するが、計算コストは著しく低い。この方法論は、モデル比較のための効率的で標準化されたツールを提供し、より高度なテストのベンチマークとして機能する。
論文参考訳（メタデータ） (2024-09-24T13:58:46Z)
Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文参考訳（メタデータ） (2024-04-11T09:23:36Z)
Minimally Supervised Learning using Topological Projections in Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-01-12T22:51:48Z)
The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文参考訳（メタデータ） (2023-12-13T02:04:41Z)
Sparse Bayesian Multidimensional Item Response Theory [0.0]
我々は,大規模なデータセットに対して最小限のチューニングとスケールを必要とする二項および順序項目MIRTのためのベイズプラットフォームを開発する。ベイズ非パラメトリックスによるツールによる未知の潜在因子次元の問題に対処する。本手法は, 微小サンプルにおいても高次元合成データの因子次元と潜時構造の両方を確実に回収する。
論文参考訳（メタデータ） (2023-10-26T23:50:50Z)
Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文参考訳（メタデータ） (2023-08-28T18:48:34Z)
Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文参考訳（メタデータ） (2023-07-28T23:02:39Z)
Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文参考訳（メタデータ） (2023-04-04T17:54:32Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Robustness Analysis of Deep Learning Models for Population Synthesis [5.9106199000537645]
複数のデータセットに対するロバスト性を評価するため, 深部生成モデルのブートストラップ信頼区間を示す。これらのモデルは、2008年、2013年、2018年のモントリオール・オリジン・デスチネーション・サーベイの複数の旅行日記に実装されている。その結果,CTGANの予測誤差は,複数のデータセットに対する堅牢性を示す信頼区間が狭かった。
論文参考訳（メタデータ） (2022-11-23T22:55:55Z)
Intrinsic Dimensionality Estimation within Tight Localities: A Theoretical and Experimental Analysis [0.0]
そこで本研究では,20個のサンプル点からなるタイトな局所性に対しても安定な局所ID推定手法を提案する。実験結果から,提案手法の偏差は比較的小さいが, 偏差は比較的小さく, 試料径は最先端の推定値よりもはるかに小さいことがわかった。
論文参考訳（メタデータ） (2022-09-29T00:00:11Z)
Comparing the Utility and Disclosure Risk of Synthetic Data with Samples of Microdata [0.6445605125467572]
データの実用性と開示リスクの計測方法に関するコンセンサスはない。ユーティリティと関連するリスクが明確に理解されている合成国勢調査マイクロデータを作成する能力は、よりタイムリーで広い範囲のマイクロデータへのアクセスが可能になることを意味している。本報告では, 合成データの有用性と開示リスクを, 異なるサンプル分画の原データのサンプルと比較し, 評価する枠組みを提案する。
論文参考訳（メタデータ） (2022-07-02T20:38:29Z)
A Kernelised Stein Statistic for Assessing Implicit Generative Models [10.616967871198689]
本稿では,合成データ生成装置の品質を評価するための基本手法を提案する。合成データ生成装置からのサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定される。
論文参考訳（メタデータ） (2022-05-31T23:40:21Z)
Combining Observational and Randomized Data for Estimating Heterogeneous Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。現在、現存するほとんどの作品は観測データにのみ依存している。本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文参考訳（メタデータ） (2022-02-25T18:59:54Z)
Towards Synthetic Multivariate Time Series Generation for Flare Forecasting [5.098461305284216]
データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
論文参考訳（メタデータ） (2021-05-16T22:23:23Z)
Entropy Minimizing Matrix Factorization [102.26446204624885]
NMF(Nonnegative Matrix Factorization)は、広く使用されているデータ分析技術であり、多くの実際のタスクで印象的な結果をもたらしました。本研究では,上述の問題に対処するために,EMMF (Entropy Minimizing Matrix Factorization framework) を開発した。通常、外れ値が通常のサンプルよりもはるかに小さいことを考えると、行列分解のために新しいエントロピー損失関数が確立される。
論文参考訳（メタデータ） (2021-03-24T21:08:43Z)
Evaluating representations by the complexity of learning low-loss predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文参考訳（メタデータ） (2020-09-15T22:06:58Z)
The UU-test for Statistical Modeling of Unimodal Data [0.20305676256390928]
一次元データセットの一様性を決定するUUテスト(Unimodal Uniform test)手法を提案する。このアプローチのユニークな特徴は、一様性の場合、一様混合モデルという形でデータの統計モデルも提供することである。
論文参考訳（メタデータ） (2020-08-28T08:34:28Z)
Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文参考訳（メタデータ） (2020-06-22T21:12:31Z)
CoinPress: Practical Private Mean and Covariance Estimation [18.6419638570742]
多変量準ガウスデータの平均と共分散に対する単純な微分プライベート推定器を提案する。これらの誤差率は最先端の理論的境界値と一致し, 従来手法よりも顕著に優れていたことを示す。
論文参考訳（メタデータ） (2020-06-11T17:17:28Z)
Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文参考訳（メタデータ） (2020-05-08T05:09:08Z)
Asymptotic Analysis of an Ensemble of Randomly Projected Linear Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文参考訳（メタデータ） (2020-04-17T12:47:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。