論文の概要: Synthesising Multi-Modal Minority Samples for Tabular Data
- arxiv url: http://arxiv.org/abs/2105.08204v1
- Date: Mon, 17 May 2021 23:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 01:22:39.262477
- Title: Synthesising Multi-Modal Minority Samples for Tabular Data
- Title(参考訳): タブラルデータのためのマルチモーダルマイノリティサンプルの合成
- Authors: Sajad Darabi and Yotam Elor
- Abstract要約: トレーニング前にデータセットに合成マイノリティサンプルを追加することは、この困難に対処するための一般的なテクニックである。
本稿では,多モードサンプルを高密度連続潜時空間にマッピングする潜時空間フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れた合成データを生成する。
- 参考スコア(独自算出の注目度): 3.7311680121118345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world binary classification tasks are in many cases imbalanced, where
the minority class is much smaller than the majority class. This skewness is
challenging for machine learning algorithms as they tend to focus on the
majority and greatly misclassify the minority. Adding synthetic minority
samples to the dataset before training the model is a popular technique to
address this difficulty and is commonly achieved by interpolating minority
samples. Tabular datasets are often multi-modal and contain discrete
(categorical) features in addition to continuous ones which makes interpolation
of samples non-trivial. To address this, we propose a latent space
interpolation framework which (1) maps the multi-modal samples to a dense
continuous latent space using an autoencoder; (2) applies oversampling by
interpolation in the latent space; and (3) maps the synthetic samples back to
the original feature space. We defined metrics to directly evaluate the quality
of the minority data generated and showed that our framework generates better
synthetic data than the existing methods. Furthermore, the superior synthetic
data yields better prediction quality in downstream binary classification
tasks, as was demonstrated in extensive experiments with 27 publicly available
real-world datasets
- Abstract(参考訳): 実世界の二項分類タスクは多くの場合不均衡であり、マイノリティクラスは多数派よりもはるかに小さい。
この歪みは、機械学習アルゴリズムが多数派に集中し、少数派を非常に誤って分類する傾向があるため、難しい。
モデルをトレーニングする前にデータセットに合成マイノリティサンプルを追加することは、この困難に対処するための一般的な手法であり、マイノリティサンプルを補間することで一般的に達成される。
タブラルデータセットは、しばしばマルチモーダルであり、サンプルを非自明に補間する連続したデータセットに加えて、離散的な(カテゴリー的な)特徴を含む。
そこで本研究では,(1)マルチモーダルサンプルをオートエンコーダを用いて高密度連続的潜在空間にマッピングする潜在空間補間フレームワークを提案し,(2)潜在空間の補間によるオーバーサンプリングを適用し,(3)合成サンプルを元の特徴空間にマッピングする。
我々は,マイノリティデータの品質を直接評価するためのメトリクスを定義し,既存の手法よりも優れた合成データを生成することを示した。
さらに,27の公開実世界データセットを用いた大規模実験で実証されたように,優れた合成データにより下流二分分類タスクの予測品質が向上する。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - Don't Play Favorites: Minority Guidance for Diffusion Models [59.75996752040651]
本稿では,拡散モデルの生成過程をマイノリティ標本に集中させる新しい枠組みを提案する。
我々は、所望の確率レベルを持つ領域に向けて生成過程をガイドできるサンプリング技術であるマイノリティガイダンスを開発する。
論文 参考訳(メタデータ) (2023-01-29T03:08:47Z) - Synthetic-to-Real Domain Generalized Semantic Segmentation for 3D Indoor
Point Clouds [69.64240235315864]
本稿では,本課題に対して,合成-実領域一般化設定を提案する。
合成と実世界のポイントクラウドデータのドメインギャップは、主に異なるレイアウトとポイントパターンにあります。
CINMixとMulti-prototypeの両方が分配ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2022-12-09T05:07:43Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Undersampling is a Minimax Optimal Robustness Intervention in
Nonparametric Classification [28.128464387420216]
マイノリティグループサンプルの欠如によって学習が根本的に制約されていることを示す。
特にラベルシフトの場合、最小値のアンダーサンプリングアルゴリズムが常に存在することを示す。
論文 参考訳(メタデータ) (2022-05-26T00:35:11Z) - Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。
提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文 参考訳(メタデータ) (2022-04-19T06:02:53Z) - A Synthetic Over-sampling method with Minority and Majority classes for
imbalance problems [0.0]
マイノリティクラスとマイノリティクラス(SOMM)を用いて合成インスタンスを生成する新しい手法を提案する。
SOMMは、マイノリティデータ空間内で多様な合成インスタンスを生成する。
生成されたインスタンスを、両方のクラスを含む近隣に適応的に更新する。
論文 参考訳(メタデータ) (2020-11-09T03:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。