論文の概要: Synthesising Multi-Modal Minority Samples for Tabular Data
- arxiv url: http://arxiv.org/abs/2105.08204v1
- Date: Mon, 17 May 2021 23:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 01:22:39.262477
- Title: Synthesising Multi-Modal Minority Samples for Tabular Data
- Title(参考訳): タブラルデータのためのマルチモーダルマイノリティサンプルの合成
- Authors: Sajad Darabi and Yotam Elor
- Abstract要約: トレーニング前にデータセットに合成マイノリティサンプルを追加することは、この困難に対処するための一般的なテクニックである。
本稿では,多モードサンプルを高密度連続潜時空間にマッピングする潜時空間フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れた合成データを生成する。
- 参考スコア(独自算出の注目度): 3.7311680121118345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world binary classification tasks are in many cases imbalanced, where
the minority class is much smaller than the majority class. This skewness is
challenging for machine learning algorithms as they tend to focus on the
majority and greatly misclassify the minority. Adding synthetic minority
samples to the dataset before training the model is a popular technique to
address this difficulty and is commonly achieved by interpolating minority
samples. Tabular datasets are often multi-modal and contain discrete
(categorical) features in addition to continuous ones which makes interpolation
of samples non-trivial. To address this, we propose a latent space
interpolation framework which (1) maps the multi-modal samples to a dense
continuous latent space using an autoencoder; (2) applies oversampling by
interpolation in the latent space; and (3) maps the synthetic samples back to
the original feature space. We defined metrics to directly evaluate the quality
of the minority data generated and showed that our framework generates better
synthetic data than the existing methods. Furthermore, the superior synthetic
data yields better prediction quality in downstream binary classification
tasks, as was demonstrated in extensive experiments with 27 publicly available
real-world datasets
- Abstract(参考訳): 実世界の二項分類タスクは多くの場合不均衡であり、マイノリティクラスは多数派よりもはるかに小さい。
この歪みは、機械学習アルゴリズムが多数派に集中し、少数派を非常に誤って分類する傾向があるため、難しい。
モデルをトレーニングする前にデータセットに合成マイノリティサンプルを追加することは、この困難に対処するための一般的な手法であり、マイノリティサンプルを補間することで一般的に達成される。
タブラルデータセットは、しばしばマルチモーダルであり、サンプルを非自明に補間する連続したデータセットに加えて、離散的な(カテゴリー的な)特徴を含む。
そこで本研究では,(1)マルチモーダルサンプルをオートエンコーダを用いて高密度連続的潜在空間にマッピングする潜在空間補間フレームワークを提案し,(2)潜在空間の補間によるオーバーサンプリングを適用し,(3)合成サンプルを元の特徴空間にマッピングする。
我々は,マイノリティデータの品質を直接評価するためのメトリクスを定義し,既存の手法よりも優れた合成データを生成することを示した。
さらに,27の公開実世界データセットを用いた大規模実験で実証されたように,優れた合成データにより下流二分分類タスクの予測品質が向上する。
関連論文リスト
- AEMLO: AutoEncoder-Guided Multi-Label Oversampling [6.255095509216069]
AEMLOは、不均衡なマルチラベルデータに対するAutoEncoder-guided Oversampling技術である。
AEMLOは、既存の最先端手法よりも優れた性能を示し、広範な実証研究を行った。
論文 参考訳(メタデータ) (2024-08-23T14:01:33Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Self-Guided Generation of Minority Samples Using Diffusion Models [57.319845580050924]
データ多様体の低密度領域に居住する少数サンプルを生成するための新しい手法を提案する。
我々のフレームワークは拡散モデルに基づいて構築されており、ガイドドサンプリングの原理を生かしている。
実データセットのベンチマーク実験により、我々のアプローチは現実的な低自由度マイノリティインスタンスを作成する能力を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-07-16T10:03:29Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - Don't Play Favorites: Minority Guidance for Diffusion Models [59.75996752040651]
本稿では,拡散モデルの生成過程をマイノリティ標本に集中させる新しい枠組みを提案する。
我々は、所望の確率レベルを持つ領域に向けて生成過程をガイドできるサンプリング技術であるマイノリティガイダンスを開発する。
論文 参考訳(メタデータ) (2023-01-29T03:08:47Z) - Synthetic-to-Real Domain Generalized Semantic Segmentation for 3D Indoor
Point Clouds [69.64240235315864]
本稿では,本課題に対して,合成-実領域一般化設定を提案する。
合成と実世界のポイントクラウドデータのドメインギャップは、主に異なるレイアウトとポイントパターンにあります。
CINMixとMulti-prototypeの両方が分配ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2022-12-09T05:07:43Z) - Undersampling is a Minimax Optimal Robustness Intervention in
Nonparametric Classification [28.128464387420216]
マイノリティグループサンプルの欠如によって学習が根本的に制約されていることを示す。
特にラベルシフトの場合、最小値のアンダーサンプリングアルゴリズムが常に存在することを示す。
論文 参考訳(メタデータ) (2022-05-26T00:35:11Z) - Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。
提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文 参考訳(メタデータ) (2022-04-19T06:02:53Z) - A Synthetic Over-sampling method with Minority and Majority classes for
imbalance problems [0.0]
マイノリティクラスとマイノリティクラス(SOMM)を用いて合成インスタンスを生成する新しい手法を提案する。
SOMMは、マイノリティデータ空間内で多様な合成インスタンスを生成する。
生成されたインスタンスを、両方のクラスを含む近隣に適応的に更新する。
論文 参考訳(メタデータ) (2020-11-09T03:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。