論文の概要: Gamma distribution-based sampling for imbalanced data
- arxiv url: http://arxiv.org/abs/2009.10343v1
- Date: Tue, 22 Sep 2020 06:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 21:39:24.361766
- Title: Gamma distribution-based sampling for imbalanced data
- Title(参考訳): ガンマ分布に基づく不均衡データのサンプリング
- Authors: Firuz Kamalov and Dmitry Denisov
- Abstract要約: 不均衡なクラス分布は、医学診断、不正検出など、多くの分野において一般的な問題である。
本稿では,マイノリティクラスインスタンスのインテリジェントな再サンプリングを通じて,データ中のクラス分布のバランスをとる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 6.85316573653194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced class distribution is a common problem in a number of fields
including medical diagnostics, fraud detection, and others. It causes bias in
classification algorithms leading to poor performance on the minority class
data. In this paper, we propose a novel method for balancing the class
distribution in data through intelligent resampling of the minority class
instances. The proposed method is based on generating new minority instances in
the neighborhood of the existing minority points via a gamma distribution. Our
method offers a natural and coherent approach to balancing the data. We conduct
a comprehensive numerical analysis of the new sampling technique. The
experimental results show that the proposed method outperforms the existing
state-of-the-art methods for imbalanced data. Concretely, the new sampling
technique produces the best results on 12 out of 24 real life as well as
synthetic datasets. For comparison, the SMOTE method achieves the top score on
only 1 dataset. We conclude that the new technique offers a simple yet
effective sampling approach to balance data.
- Abstract(参考訳): 不均衡なクラス分布は、医学診断、不正検出など、多くの分野において一般的な問題である。
分類アルゴリズムのバイアスが発生し、マイノリティクラスデータのパフォーマンスが低下する。
本稿では、マイノリティクラスインスタンスのインテリジェントな再サンプリングを通じて、データのクラス分布をバランスさせる新しい手法を提案する。
提案手法は,ガンマ分布を用いて,既存マイノリティポイント近傍のマイノリティインスタンスを新たに生成することに基づく。
本手法は,データのバランスをとるための自然かつコヒーレントなアプローチを提供する。
我々は,新しいサンプリング手法の包括的数値解析を行う。
実験の結果,提案手法は既存の非平衡データに対する最先端手法よりも優れていた。
具体的には、新しいサンプリング技術は、24の現実生活のうち12のベストな結果と、合成データセットを生成する。
比較のために、SMOTE法は1つのデータセットでトップスコアを得る。
この新しい手法は,データのバランスをとるための,単純かつ効果的なサンプリング手法を提供する。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - A Novel Hybrid Sampling Framework for Imbalanced Learning [0.0]
SMOTE-RUS-NC」は他の最先端サンプリング技術と比較されている。
26個の不均衡なデータセットで厳密な実験が行われた。
論文 参考訳(メタデータ) (2022-08-20T07:04:00Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Imbalanced Classification via Explicit Gradient Learning From Augmented
Data [0.0]
本稿では、与えられた不均衡なデータセットを新しいマイノリティインスタンスに拡張する、新しい深層メタラーニング手法を提案する。
提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。
論文 参考訳(メタデータ) (2022-02-21T22:16:50Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning [10.051309746913512]
本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
論文 参考訳(メタデータ) (2020-08-20T20:33:56Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z) - UGRWO-Sampling for COVID-19 dataset: A modified random walk
under-sampling approach based on graphs to imbalanced data classification [2.15242029196761]
本稿では,不均衡なデータセットのグラフに基づく新しいRWO-Sampling(Random Walk Over-Sampling)を提案する。
アンダーサンプリング法とオーバーサンプリング法に基づく2つのスキームを導入し,ノイズや外れ値に対して近接情報を堅牢に保つ。
論文 参考訳(メタデータ) (2020-02-10T03:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。