論文の概要: Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants
- arxiv url: http://arxiv.org/abs/2402.03819v3
- Date: Fri, 11 Oct 2024 08:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:29:54.293584
- Title: Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants
- Title(参考訳): 再バランス戦略は必要か? : SMOTEとその変種に関する理論的および実証的研究
- Authors: Abdoulaye Sakho, Emmanuel Malherbe, Erwan Scornet,
- Abstract要約: SMOTE(Synthetic Minority Oversampling Technique)は、不均衡なデータセットを扱うための一般的なリバランス戦略である。
我々は2つの新しいSMOTE関連戦略を導入し、それらを最先端のリバランシング手順と比較する。
ほとんどのデータセットでは、リバランス戦略を適用することは予測性能の点で競争力がある。
- 参考スコア(独自算出の注目度): 5.561618915244982
- License:
- Abstract: Synthetic Minority Oversampling Technique (SMOTE) is a common rebalancing strategy for handling imbalanced tabular data sets. However, few works analyze SMOTE theoretically. In this paper, we prove that SMOTE (with default parameter) tends to copy the original minority samples asymptotically. We also prove that SMOTE exhibits boundary artifacts, thus justifying existing SMOTE variants. Then we introduce two new SMOTE-related strategies, and compare them with state-of-the-art rebalancing procedures. Surprisingly, for most data sets, we observe that applying no rebalancing strategy is competitive in terms of predictive performances, with tuned random forests, logistic regression or LightGBM. For highly imbalanced data sets, our new methods, named CV-SMOTE and Multivariate Gaussian SMOTE, are competitive. Besides, our analysis sheds some lights on the behavior of common rebalancing strategies, when used in conjunction with random forests.
- Abstract(参考訳): SMOTE(Synthetic Minority Oversampling Technique)は、不均衡な表付きデータセットを扱うための一般的な再バランス手法である。
しかし、SMOTEを理論的に分析する研究はほとんどない。
本稿では,SMOTEが元のマイノリティ標本を漸近的にコピーする傾向にあることを示す。
また,SMOTEが境界アーティファクトを示すことを証明し,既存のSMOTEの変形を正当化する。
次に、2つの新しいSMOTE関連戦略を導入し、それらを最先端のリバランシング手順と比較する。
驚いたことに、ほとんどのデータセットでは、調整されたランダムフォレスト、ロジスティックレグレッション、またはLightGBMで、再バランス戦略を適用することは、予測性能の面で競合しない。
高度に不均衡なデータセットに対しては,CV-SMOTE と Multivariate Gaussian SMOTE が競合する。
さらに、ランダムな森林と組み合わせて使う場合、一般的な再バランス戦略の振舞いに光を当てる。
関連論文リスト
- Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - BSGAN: A Novel Oversampling Technique for Imbalanced Pattern
Recognitions [0.0]
クラス不均衡問題(CIP)は、予測のための非バイアスの機械学習(ML)モデルを開発する際の潜在的な課題の1つである。
CIPは、データサンプルが2つまたは複数のクラス間で等しく分散されていない場合に発生する。
本研究では,より多様なデータを生成するために,境界線SMOTEとジェネレーティブ・アドリラル・ネットワークのパワーを組み合わせたハイブリッド・オーバーサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:02:39Z) - Imbalanced Class Data Performance Evaluation and Improvement using Novel
Generative Adversarial Network-based Approach: SSG and GBO [0.0]
本研究は, GAN-based Oversampling (GBO) と Support Vector Machine-SMOTE-GAN (SSG) の2つの新しい手法を提案する。
予備計算の結果、SSGとGBOは元のSMOTEよりも、拡張された不均衡な8つのベンチマークデータセットでより良い性能を示した。
論文 参考訳(メタデータ) (2022-10-23T22:17:54Z) - A Novel Hybrid Sampling Framework for Imbalanced Learning [0.0]
SMOTE-RUS-NC」は他の最先端サンプリング技術と比較されている。
26個の不均衡なデータセットで厳密な実験が行われた。
論文 参考訳(メタデータ) (2022-08-20T07:04:00Z) - CARMS: Categorical-Antithetic-REINFORCE Multi-Sample Gradient Estimator [60.799183326613395]
本稿では, 相互に負に相関した複数のサンプルに基づく分類的確率変数の非バイアス推定器を提案する。
CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。
我々は、生成的モデリングタスクと構造化された出力予測タスクに基づいて、いくつかのベンチマークデータセット上でCARMSを評価し、強力な自己制御ベースラインを含む競合する手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-26T20:14:30Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - GMOTE: Gaussian based minority oversampling technique for imbalanced
classification adapting tail probability of outliers [0.0]
データレベルのアプローチは、主にオーバーサンプリングメソッドを使用して問題を解決します。例えば、合成マイノリティオーバーサンプリング技術(SMOTE)です。
本稿では,不均衡データセットに対する統計的観点からガウス型マイノリティオーバーサンプリング手法(gmote)を提案する。
GMOTEが分類および回帰木(CART)またはサポートベクター機械(SVM)と結合されるとき、それはよりよい正確さおよびF1スコアを示します。
論文 参考訳(メタデータ) (2021-05-09T07:04:37Z) - SMOTE-ENC: A novel SMOTE-based method to generate synthetic data for
nominal and continuous features [0.38073142980733]
SMOTE-ENC (SMOTE - Encoded Nominal and Continuous) という新しいマイノリティオーバーサンプリング手法を提案する。
本実験では、SMOTE-ENC法を用いた分類モデルがSMOTE-NCを用いたモデルよりも優れた予測を提供することを示した。
提案手法は,SMOTE-NCアルゴリズムの主な制約の一つに対処する。
論文 参考訳(メタデータ) (2021-03-13T04:16:17Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。