論文の概要: SOS: Score-based Oversampling for Tabular Data
- arxiv url: http://arxiv.org/abs/2206.08555v1
- Date: Fri, 17 Jun 2022 05:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-21 03:20:46.658331
- Title: SOS: Score-based Oversampling for Tabular Data
- Title(参考訳): SOS: タブラルデータのためのスコアベースのオーバーサンプリング
- Authors: Jayoung Kim, Chaejeong Lee, Yehjin Shin, Sewon Park, Minjung Kim,
Noseong Park, Jihoon Cho
- Abstract要約: 偽画像を生成するためのスコアベース生成モデル(SGM)を完全にカスタマイズする。
我々は、スコアベースの表データオーバーサンプリング法を初めて提示する。
6つのデータセットと10のベースラインによる実験では、すべてのケースにおいて、オーバーサンプリングメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 9.809150646175196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Score-based generative models (SGMs) are a recent breakthrough in generating
fake images. SGMs are known to surpass other generative models, e.g.,
generative adversarial networks (GANs) and variational autoencoders (VAEs).
Being inspired by their big success, in this work, we fully customize them for
generating fake tabular data. In particular, we are interested in oversampling
minor classes since imbalanced classes frequently lead to sub-optimal training
outcomes. To our knowledge, we are the first presenting a score-based tabular
data oversampling method. Firstly, we re-design our own score network since we
have to process tabular data. Secondly, we propose two options for our
generation method: the former is equivalent to a style transfer for tabular
data and the latter uses the standard generative policy of SGMs. Lastly, we
define a fine-tuning method, which further enhances the oversampling quality.
In our experiments with 6 datasets and 10 baselines, our method outperforms
other oversampling methods in all cases.
- Abstract(参考訳): スコアベース生成モデル(SGM)は、最近のフェイク画像の生成におけるブレークスルーである。
SGMは、GAN(generative adversarial network)やVAE(variantal autoencoder)など、他の生成モデルを上回ることが知られている。
彼らの大きな成功にインスパイアされたこの作業では、偽の表データを生成するために、完全にカスタマイズしています。
特に、不均衡なクラスがしばしば最適以下のトレーニング結果につながるため、マイナークラスのオーバーサンプリングに関心があります。
私たちの知る限りでは,スコアベースの表データオーバーサンプリング手法を初めて提示する。
まず、表データを処理する必要があるため、スコアネットワークを再設計する。
次に,本手法の2つの選択肢を提案する。前者は表型データに対するスタイル転送に等価であり,後者はSGMの標準生成ポリシーを使用する。
最後に,オーバーサンプリング品質をさらに向上させる微調整手法を定義する。
6つのデータセットと10のベースラインによる実験では、すべてのケースにおいて、オーバーサンプリングメソッドよりも優れています。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Decoupled Prototype Learning for Reliable Test-Time Adaptation [50.779896759106784]
テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。
1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。
本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。
本稿では,プロトタイプ中心の損失計算を特徴とする新しいDPL法を提案する。
論文 参考訳(メタデータ) (2024-01-15T03:33:39Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Forgetting Data from Pre-trained GANs [28.326418377665345]
特定の種類のサンプルを忘れないように、トレーニング後にモデルを後編集する方法について検討する。
我々は,GANに対して,忘れるべきサンプルの表現方法が異なる3つの異なるアルゴリズムを提供する。
我々のアルゴリズムは、完全再トレーニングのコストのごく一部で、高品質を維持しながらデータを忘れることができる。
論文 参考訳(メタデータ) (2022-06-29T03:46:16Z) - FinGAN: Generative Adversarial Network for Analytical Customer
Relationship Management in Banking and Insurance [4.241208172557663]
GAN(Generative Adversarial Network)を用いたマイノリティクラスの合成サンプルを生成するオーバーサンプリング手法を提案する。
第二に、一級支援ビゴーマシン(OCSVM)が取得したアンダーサンプリングされた多数派クラスデータと、GANがオーバーサンプリングした合成マイノリティクラスデータを増分することで、アンダーサンプリングとオーバーサンプリングの力を両立させる。
提案手法は,全データセットのROC曲線(AUC)に基づく領域において,従来の結果よりも優れていた。
論文 参考訳(メタデータ) (2022-01-27T12:43:00Z) - Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation [58.64720318755764]
Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。
我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T05:01:24Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z) - Data Generation in Low Sample Size Setting Using Manifold Sampling and a
Geometry-Aware VAE [0.0]
我々は,潜在空間の幾何構造に基づく2つの非アンフリープリオリ依存生成手順を考案する。
後者の手法は、サンプルサイズの小さな設定でデータ拡張を行うために使用され、様々な標準および実生活データセットで検証される。
論文 参考訳(メタデータ) (2021-03-25T11:07:10Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z) - UGRWO-Sampling for COVID-19 dataset: A modified random walk
under-sampling approach based on graphs to imbalanced data classification [2.15242029196761]
本稿では,不均衡なデータセットのグラフに基づく新しいRWO-Sampling(Random Walk Over-Sampling)を提案する。
アンダーサンプリング法とオーバーサンプリング法に基づく2つのスキームを導入し,ノイズや外れ値に対して近接情報を堅牢に保つ。
論文 参考訳(メタデータ) (2020-02-10T03:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。