論文の概要: Improving the quality of generative models through Smirnov
transformation
- arxiv url: http://arxiv.org/abs/2110.15914v1
- Date: Fri, 29 Oct 2021 17:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 14:25:18.051998
- Title: Improving the quality of generative models through Smirnov
transformation
- Title(参考訳): スミルノフ変換による生成モデルの品質向上
- Authors: \'Angel Gonz\'alez-Prieto, Alberto Mozo, Sandra G\'omez-Canaval, Edgar
Talavera
- Abstract要約: 本稿では,ジェネレータの出力として使用される新しいアクティベーション関数を提案する。
これはスミルノフ確率変換に基づいており、生成されたデータの品質を改善するために特別に設計されている。
- 参考スコア(独自算出の注目度): 1.3492000366723798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving the convergence issues of Generative Adversarial Networks (GANs) is
one of the most outstanding problems in generative models. In this work, we
propose a novel activation function to be used as output of the generator
agent. This activation function is based on the Smirnov probabilistic
transformation and it is specifically designed to improve the quality of the
generated data. In sharp contrast with previous works, our activation function
provides a more general approach that deals not only with the replication of
categorical variables but with any type of data distribution (continuous or
discrete). Moreover, our activation function is derivable and therefore, it can
be seamlessly integrated in the backpropagation computations during the GAN
training processes. To validate this approach, we evaluate our proposal against
two different data sets: a) an artificially rendered data set containing a
mixture of discrete and continuous variables, and b) a real data set of
flow-based network traffic data containing both normal connections and
cryptomining attacks. To evaluate the fidelity of the generated data, we
analyze both their results in terms of quality measures of statistical nature
and also regarding the use of these synthetic data to feed a nested machine
learning-based classifier. The experimental results evince a clear
outperformance of the GAN network tuned with this new activation function with
respect to both a na\"ive mean-based generator and a standard GAN. The quality
of the data is so high that the generated data can fully substitute real data
for training the nested classifier without a fall in the obtained accuracy.
This result encourages the use of GANs to produce high-quality synthetic data
that are applicable in scenarios in which data privacy must be guaranteed.
- Abstract(参考訳): GAN(Generative Adversarial Networks)の収束問題を解くことは、生成モデルにおいて最も顕著な問題の1つである。
本研究では,ジェネレータエージェントの出力として使用する新たなアクティベーション関数を提案する。
この活性化関数はスミルノフ確率変換に基づいており、生成されたデータの品質を改善するよう特別に設計されている。
従来の作業とは対照的に,我々のアクティベーション関数は,カテゴリ変数の複製だけでなく,任意の種類のデータ分散(連続的あるいは離散的)を扱う,より一般的なアプローチを提供する。
さらに、この活性化関数は導出可能であり、ganトレーニングプロセス中のバックプロパゲーション計算にシームレスに統合することができる。
このアプローチを検証するために、提案手法を2つの異なるデータセットに対して評価する。
a) 離散変数と連続変数の混合を含む人工的に描画されたデータセット
b)通常の接続と暗号攻撃の両方を含むフローベースのネットワークトラフィックデータの実際のデータセット。
生成したデータの忠実度を評価するため、統計的性質の質測定と、ネストした機械学習に基づく分類器への合成データの利用に関して、両者の結果を分析した。
実験結果は、この新たな活性化関数を調整したGANネットワークの明確な性能を、na\\ive平均ベースジェネレータと標準GANの両方に対して実現した。
データの品質が非常に高く、生成されたデータは、得られた精度を低下させることなく、ネスト分類器を訓練するための実データを完全に置き換えることができる。
これにより、データプライバシの保証が必要なシナリオに適用可能な高品質な合成データを生成するために、GANの使用が促進される。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery [56.622854875204645]
本稿では,遺伝子・遺伝子相互作用の探索に先進的なトランスフォーマーモデルを活用する,データ駆動型計算ツールを活用した革新的なアプローチを提案する。
新たな重み付き多様化サンプリングアルゴリズムは、データセットのたった2パスで、各データサンプルの多様性スコアを算出する。
論文 参考訳(メタデータ) (2024-10-21T03:35:23Z) - An improved tabular data generator with VAE-GMM integration [9.4491536689161]
本稿では,現在のアプローチの限界に対処する新しい変分オートエンコーダ(VAE)モデルを提案する。
本手法は,TVAEモデルにインスパイアされたベイジアン・ガウス混合モデル(BGM)をVAEアーキテクチャに組み込む。
我々は,2つの医療関連データセットを含む混合データ型を持つ実世界の3つのデータセットに対して,我々のモデルを徹底的に検証する。
論文 参考訳(メタデータ) (2024-04-12T12:31:06Z) - SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。
スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - A Kernelised Stein Statistic for Assessing Implicit Generative Models [10.616967871198689]
本稿では,合成データ生成装置の品質を評価するための基本手法を提案する。
合成データ生成装置からのサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定される。
論文 参考訳(メタデータ) (2022-05-31T23:40:21Z) - Improving Model Compatibility of Generative Adversarial Networks by
Boundary Calibration [24.28407308818025]
境界キャリブレーションGAN(BCGAN)は、GANのモデル互換性を改善するために提案される。
BCGANはオリジナルのGANのようなリアルなイメージを生成するが、オリジナルのGANよりも優れたモデル互換性を実現する。
論文 参考訳(メタデータ) (2021-11-03T16:08:09Z) - Copula Flows for Synthetic Data Generation [0.5801044612920815]
確率モデルを合成データ生成器として用いることを提案する。
密度推定の手法として,シミュレーションと実データの両方をベンチマークした。
論文 参考訳(メタデータ) (2021-01-03T10:06:23Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。