論文の概要: OCT-GAN: Neural ODE-based Conditional Tabular GANs
- arxiv url: http://arxiv.org/abs/2105.14969v1
- Date: Mon, 31 May 2021 13:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:03:43.140223
- Title: OCT-GAN: Neural ODE-based Conditional Tabular GANs
- Title(参考訳): OCT-GAN:Neural ODE-based Conditional Tabular GANs
- Authors: Jayoung Kim, Jinsung Jeon, Jaehoon Lee, Jihyeon Hyeong, Noseong Park
- Abstract要約: ニューラル常微分方程式(NODE)に基づくジェネレータと判別器を導入する。
我々は、保険詐欺の検出やオンラインニュース記事の予測などを含む13のデータセットを用いて実験を行う。
- 参考スコア(独自算出の注目度): 8.062118111791495
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Synthesizing tabular data is attracting much attention these days for various
purposes. With sophisticate synthetic data, for instance, one can augment its
training data. For the past couple of years, tabular data synthesis techniques
have been greatly improved. Recent work made progress to address many problems
in synthesizing tabular data, such as the imbalanced distribution and
multimodality problems. However, the data utility of state-of-the-art methods
is not satisfactory yet. In this work, we significantly improve the utility by
designing our generator and discriminator based on neural ordinary differential
equations (NODEs). After showing that NODEs have theoretically preferred
characteristics for generating tabular data, we introduce our designs. The
NODE-based discriminator performs a hidden vector evolution trajectory-based
classification rather than classifying with a hidden vector at the last layer
only. Our generator also adopts an ODE layer at the very beginning of its
architecture to transform its initial input vector (i.e., the concatenation of
a noisy vector and a condition vector in our case) onto another latent vector
space suitable for the generation process. We conduct experiments with 13
datasets, including but not limited to insurance fraud detection, online news
article prediction, and so on, and our presented method outperforms other
state-of-the-art tabular data synthesis methods in many cases of our
classification, regression, and clustering experiments.
- Abstract(参考訳): 表データの合成は、最近ではさまざまな目的のために多くの注目を集めている。
例えば、洗練された合成データを使えば、トレーニングデータを強化することができる。
過去数年間、表データ合成技術は大幅に改善されてきた。
最近の研究は、不均衡分布やマルチモーダリティ問題など、表データの合成における多くの問題に対処している。
しかし、最先端のメソッドのデータユーティリティはまだ満足できない。
本研究では,ニューラル常微分方程式(NODE)に基づいて生成器と識別器を設計することにより,実用性を大幅に改善する。
NODE が表データ生成に理論的に有利な特性を持つことを示した後、我々はその設計を紹介した。
NODEベースの判別器は、最終層のみに隠れベクトルを分類するのではなく、隠れベクトル進化軌道に基づく分類を行う。
我々のジェネレータはまた、そのアーキテクチャの初期段階でODE層を採用し、初期入力ベクトル(すなわち、雑音ベクトルと条件ベクトルの結合)を生成プロセスに適した別の潜在ベクトル空間に変換する。
我々は,保険詐欺の検出やオンラインニュース記事の予測などを含む13のデータセットを用いて実験を行い,分類,回帰,クラスタリング実験の多くの場合において,他の最先端の表型データ合成手法よりも優れることを示す。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Multi-objective evolutionary GAN for tabular data synthesis [0.873811641236639]
合成データは統計機関や他の統計データ生成装置によるデータ共有において重要な役割を果たしている。
本稿では,SMOE-CTGAN(SMOE-CTGAN)を合成データとして提案する。
以上の結果から,SMOE-CTGANは,複数の国勢調査データセットに対して,異なるリスクと実用レベルを持つ合成データセットを発見可能であることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T23:07:57Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Convex space learning improves deep-generative oversampling for tabular
imbalanced classification on smaller datasets [0.0]
既存の深部生成モデルは,少数クラスの凸空間から合成サンプルを生成する線形アプローチと比較して性能が低いことを示す。
本研究では,凸空間学習と深部生成モデルを組み合わせた深部生成モデルConvGeNを提案する。
論文 参考訳(メタデータ) (2022-06-20T14:42:06Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - DATGAN: Integrating expert knowledge into deep learning for synthetic
tabular data [0.0]
合成データは、バイアスデータセットの修正や、シミュレーション目的の不足したオリジナルデータの置換など、さまざまなアプリケーションで使用することができる。
ディープラーニングモデルはデータ駆動であり、生成プロセスを制御するのは難しい。
本稿では、これらの制限に対処するため、DATGAN(Directed Acyclic Tabular GAN)を提案する。
論文 参考訳(メタデータ) (2022-03-07T16:09:03Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Tensor feature hallucination for few-shot learning [17.381648488344222]
限られた監督と限られたデータによって、サンプルを分類するという課題に対処するショットは少ない。
数ショット分類のための合成データ生成に関するこれまでの研究は、複雑なモデルを活用することに重点を置いていた。
本稿では,単純かつ簡単な合成データ生成手法を効果的に利用する方法を検討する。
論文 参考訳(メタデータ) (2021-06-09T18:25:08Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Knowledge transfer across cell lines using Hybrid Gaussian Process
models with entity embedding vectors [62.997667081978825]
生物化学的プロセスを開発するために、多数の実験が実施されている。
既に開発されたプロセスのデータを利用して、新しいプロセスの予測を行い、必要な実験の数を大幅に削減できるだろうか。
論文 参考訳(メタデータ) (2020-11-27T17:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。