論文の概要: Data Balancing Strategies: A Survey of Resampling and Augmentation Methods
- arxiv url: http://arxiv.org/abs/2505.13518v1
- Date: Sat, 17 May 2025 12:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.357496
- Title: Data Balancing Strategies: A Survey of Resampling and Augmentation Methods
- Title(参考訳): データバランシング戦略:再サンプリングと拡張手法の調査
- Authors: Behnam Yousefimehr, Mehdi Ghatee, Mohammad Amin Seifi, Javad Fazli, Sajed Tavakoli, Zahra Rafei, Shervin Ghaffari, Abolfazl Nikahd, Mahdi Razi Gandomani, Alireza Orouji, Ramtin Mahmoudi Kashani, Sarina Heshmati, Negin Sadat Mousavi,
- Abstract要約: 不均衡なデータは、機械学習において大きな障害となる。
この問題を軽減するために様々な再サンプリング戦略が開発されている。
本稿では,多種多様なデータバランシング手法を概観し,合成オーバーサンプリング,適応手法,生成モデル,アンサンブルベースの戦略,ハイブリッドアプローチ,アンダーサンプリング,近隣手法などのカテゴリに分類する。
- 参考スコア(独自算出の注目度): 2.257105075408102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced data poses a significant obstacle in machine learning, as an unequal distribution of class labels often results in skewed predictions and diminished model accuracy. To mitigate this problem, various resampling strategies have been developed, encompassing both oversampling and undersampling techniques aimed at modifying class proportions. Conventional oversampling approaches like SMOTE enhance the representation of the minority class, whereas undersampling methods focus on trimming down the majority class. Advances in deep learning have facilitated the creation of more complex solutions, such as Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs), which are capable of producing high-quality synthetic examples. This paper reviews a broad spectrum of data balancing methods, classifying them into categories including synthetic oversampling, adaptive techniques, generative models, ensemble-based strategies, hybrid approaches, undersampling, and neighbor-based methods. Furthermore, it highlights current developments in resampling techniques and discusses practical implementations and case studies that validate their effectiveness. The paper concludes by offering perspectives on potential directions for future exploration in this domain.
- Abstract(参考訳): 不均衡なデータは、クラスラベルの不平等な分布がしばしば歪んだ予測とモデルの精度の低下をもたらすため、機械学習において大きな障害となる。
この問題を軽減するため、クラス比率の変更を目的としたオーバーサンプリングとアンダーサンプリングの両方を包含する様々な再サンプリング戦略が開発されている。
SMOTEのような従来のオーバーサンプリングアプローチは少数派階級の表現を強化する一方、アンダーサンプリング手法は多数派階級の縮小に重点を置いている。
ディープラーニングの進歩は、高品質な合成例を生成可能なGAN(Generative Adversarial Networks)やVAE(variantal Autoencoders)といった、より複雑なソリューションの作成を促進する。
本稿では,多種多様なデータバランシング手法を概観し,合成オーバーサンプリング,適応手法,生成モデル,アンサンブルベースの戦略,ハイブリッドアプローチ,アンダーサンプリング,近隣手法などのカテゴリに分類する。
さらに、再サンプリング技術の現況を強調し、その有効性を検証するための実践的実装とケーススタディについて論じる。
論文は、この領域における今後の探査の方向性について展望を提供することで締めくくっている。
関連論文リスト
- Kernel-Based Enhanced Oversampling Method for Imbalanced Classification [10.112750055561877]
本稿では,不均衡なデータセットの分類性能を向上させるために,新しいオーバーサンプリング手法を提案する。
提案手法は、凸結合とカーネルベースの重み付けを組み込むことで従来のSMOTEアルゴリズムを強化し、マイノリティクラスをより良く表現する合成サンプルを生成する。
論文 参考訳(メタデータ) (2025-04-12T09:24:23Z) - Deep Learning Meets Oversampling: A Learning Framework to Handle Imbalanced Classification [0.0]
データ駆動型で合成データインスタンスを生成できる新しい学習フレームワークを提案する。
提案手法は, オーバーサンプリング過程を離散決定基準の構成として定式化する。
不均衡な分類タスクの実験は、最先端のアルゴリズムよりも我々のフレームワークの方が優れていることを示す。
論文 参考訳(メタデータ) (2025-02-08T13:35:00Z) - Synthetic Feature Augmentation Improves Generalization Performance of Language Models [8.463273762997398]
限定的かつ不均衡なデータセット上でのトレーニングと微調整のディープラーニングモデルは、重大な課題を生じさせる。
本研究では, 様々な手法を用いて合成試料を合成することにより, 埋め込み空間における特徴量を増やすことを提案する。
複数のオープンソーステキスト分類ベンチマークにまたがって,このアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2025-01-11T04:31:18Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - A Hybrid Approach for Binary Classification of Imbalanced Data [0.0]
本稿では,データブロック構築,次元減少,アンサンブル学習を併用したハイブリットアプローチHADRを提案する。
我々は、8つの不均衡な公開データセットの性能をリコール、G平均、AUCで評価した。
論文 参考訳(メタデータ) (2022-07-06T15:18:41Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。