論文の概要: A Kernelised Stein Statistic for Assessing Implicit Generative Models
- arxiv url: http://arxiv.org/abs/2206.00149v1
- Date: Tue, 31 May 2022 23:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 08:20:53.804465
- Title: A Kernelised Stein Statistic for Assessing Implicit Generative Models
- Title(参考訳): 暗黙的生成モデル評価のための核化シュタイン統計
- Authors: Wenkai Xu and Gesine Reinert
- Abstract要約: 本稿では,合成データ生成装置の品質を評価するための基本手法を提案する。
合成データ生成装置からのサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定される。
- 参考スコア(独自算出の注目度): 10.616967871198689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation has become a key ingredient for training machine
learning procedures, addressing tasks such as data augmentation, analysing
privacy-sensitive data, or visualising representative samples. Assessing the
quality of such synthetic data generators hence has to be addressed. As (deep)
generative models for synthetic data often do not admit explicit probability
distributions, classical statistical procedures for assessing model
goodness-of-fit may not be applicable. In this paper, we propose a principled
procedure to assess the quality of a synthetic data generator. The procedure is
a kernelised Stein discrepancy (KSD)-type test which is based on a
non-parametric Stein operator for the synthetic data generator of interest.
This operator is estimated from samples which are obtained from the synthetic
data generator and hence can be applied even when the model is only implicit.
In contrast to classical testing, the sample size from the synthetic data
generator can be as large as desired, while the size of the observed data,
which the generator aims to emulate is fixed. Experimental results on synthetic
distributions and trained generative models on synthetic and real datasets
illustrate that the method shows improved power performance compared to
existing approaches.
- Abstract(参考訳): 合成データ生成は、機械学習手順のトレーニング、データ拡張、プライバシーに敏感なデータの分析、代表サンプルの可視化といったタスクに対処するための重要な要素となっている。
そのため、このような合成データジェネレータの品質を評価する必要がある。
合成データの(深い)生成モデルは、しばしば明示的な確率分布を認めないので、モデル良さを評価する古典的な統計的手続きは適用できないかもしれない。
本稿では,合成データ生成装置の品質を評価するための原理的手法を提案する。
この手順は、興味のある合成データ生成のための非パラメトリックシュタイン演算子に基づく、カーネル化されたスタイン差分(KSD)型試験である。
この演算子は、合成データ生成装置から得られたサンプルから推定され、モデルが暗黙的である場合にのみ適用できる。
古典的なテストとは対照的に、合成データ生成装置のサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定されている。
合成および実データセット上での合成分布と訓練された生成モデルの実験結果から,既存の手法に比べて性能が向上したことを示す。
関連論文リスト
- Maximizing the Potential of Synthetic Data: Insights from Random Matrix Theory [8.713796223707398]
実データと合成データを混合して学習したバイナリ分類器の性能を,ランダム行列理論を用いて導出する。
本研究は, 生成モデルの品質と検証戦略に焦点をあてて, 合成データにより性能が向上する条件を明らかにした。
論文 参考訳(メタデータ) (2024-10-11T16:09:27Z) - Trading Off Scalability, Privacy, and Performance in Data Synthesis [11.698554876505446]
a) Howsoエンジンを導入し、(b)ランダムプロジェクションに基づく合成データ生成フレームワークを提案する。
Howsoエンジンが生成する合成データは、プライバシーと正確性に優れており、その結果、総合的なスコアが最高の結果となる。
提案するランダム・プロジェクション・ベース・フレームワークは,高い精度で合成データを生成することができ,スケーラビリティが最速である。
論文 参考訳(メタデータ) (2023-12-09T02:04:25Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Evaluation of the Synthetic Electronic Health Records [3.255030588361125]
本研究は、合成データセットのサンプルワイズ評価のための類似性と特異性という2つの指標を概説する。
本研究は,Cystic Fibrosis (CF) 患者の電子的健康記録を合成するために,いくつかの最先端の遺伝子モデルを用いて提案された概念を実証する。
論文 参考訳(メタデータ) (2022-10-16T22:46:08Z) - Improving the quality of generative models through Smirnov
transformation [1.3492000366723798]
本稿では,ジェネレータの出力として使用される新しいアクティベーション関数を提案する。
これはスミルノフ確率変換に基づいており、生成されたデータの品質を改善するために特別に設計されている。
論文 参考訳(メタデータ) (2021-10-29T17:01:06Z) - DECAF: Generating Fair Synthetic Data Using Causally-Aware Generative
Networks [71.6879432974126]
本稿では,GANに基づく表型データのための公正な合成データ生成装置であるDECAFを紹介する。
DeCAFは望ましくないバイアスを除去し,高品質な合成データを生成可能であることを示す。
下流モデルの収束と公平性に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2021-10-25T12:39:56Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。