論文の概要: Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants
- arxiv url: http://arxiv.org/abs/2402.03819v4
- Date: Thu, 22 May 2025 07:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.585896
- Title: Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants
- Title(参考訳): 再バランス戦略は必要か? : SMOTEとその変種に関する理論的および実証的研究
- Authors: Abdoulaye Sakho, Emmanuel Malherbe, Erwan Scornet,
- Abstract要約: 我々はSMOTE密度の非漸近上界を複数導出した。
我々は、SMOTEが元のマイノリティのサンプルをコピーする傾向があることを証明した。
我々はSMOTEを理論的な知見に基づいて適用し,2つの新しい変種を導入した。
- 参考スコア(独自算出の注目度): 5.561618915244982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic Minority Oversampling Technique (SMOTE) is a common rebalancing strategy for handling imbalanced tabular data sets. However, few works analyze SMOTE theoretically. In this paper, we derive several non-asymptotic upper bound on SMOTE density. From these results, we prove that SMOTE (with default parameter) tends to copy the original minority samples asymptotically. We confirm and illustrate empirically this first theoretical behavior on a real-world data-set.bFurthermore, we prove that SMOTE density vanishes near the boundary of the support of the minority class distribution. We then adapt SMOTE based on our theoretical findings to introduce two new variants. These strategies are compared on 13 tabular data sets with 10 state-of-the-art rebalancing procedures, including deep generative and diffusion models. One of our key findings is that, for most data sets, applying no rebalancing strategy is competitive in terms of predictive performances, would it be with LightGBM, tuned random forests or logistic regression. However, when the imbalance ratio is artificially augmented, one of our two modifications of SMOTE leads to promising predictive performances compared to SMOTE and other state-of-the-art strategies.
- Abstract(参考訳): SMOTE(Synthetic Minority Oversampling Technique)は、不均衡な表付きデータセットを扱うための一般的な再バランス手法である。
しかし、SMOTEを理論的に分析する研究はほとんどない。
本稿では,SMOTE密度に基づく非漸近上界のいくつかを導出する。
これらの結果から、SMOTE(デフォルトパラメータを持つ)が元のマイノリティ標本を漸近的にコピーする傾向があることを証明した。
さらに、SMOTE密度がマイノリティクラス分布の支持の境界付近で消滅することを証明する。
次に、理論的な結果に基づいてSMOTEを適応し、2つの新しい変種を導入する。
これらの戦略は、深い生成モデルや拡散モデルを含む10の最先端のリバランス手順を備えた13の表型データセットで比較される。
重要な発見の1つは、ほとんどのデータセットにおいて、再バランス戦略を適用することは予測性能の点で競合するものではなく、LightGBM、調整されたランダムフォレスト、ロジスティックレグレッションと競合することです。
しかし、不均衡比が人工的に増大すると、SMOTEの2つの修正のうちの1つは、SMOTEや他の最先端戦略と比較して有望な予測性能をもたらす。
関連論文リスト
- Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - Harnessing Mixed Features for Imbalance Data Oversampling: Application to Bank Customers Scoring [5.091061468748012]
MGS-GRFは複合機能用に設計されたオーバーサンプリング戦略である。
その結果,MGS-GRFはコヒーレンス(コヒーレンス),すなわち,原データセットにすでに存在する分類的特徴の組み合わせのみを生成できる能力,すなわち連続的特徴と分類的特徴との依存性を維持できる能力の2つの重要な特性を示すことがわかった。
論文 参考訳(メタデータ) (2025-03-26T08:53:40Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - BSGAN: A Novel Oversampling Technique for Imbalanced Pattern
Recognitions [0.0]
クラス不均衡問題(CIP)は、予測のための非バイアスの機械学習(ML)モデルを開発する際の潜在的な課題の1つである。
CIPは、データサンプルが2つまたは複数のクラス間で等しく分散されていない場合に発生する。
本研究では,より多様なデータを生成するために,境界線SMOTEとジェネレーティブ・アドリラル・ネットワークのパワーを組み合わせたハイブリッド・オーバーサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:02:39Z) - Imbalanced Class Data Performance Evaluation and Improvement using Novel
Generative Adversarial Network-based Approach: SSG and GBO [0.0]
本研究は, GAN-based Oversampling (GBO) と Support Vector Machine-SMOTE-GAN (SSG) の2つの新しい手法を提案する。
予備計算の結果、SSGとGBOは元のSMOTEよりも、拡張された不均衡な8つのベンチマークデータセットでより良い性能を示した。
論文 参考訳(メタデータ) (2022-10-23T22:17:54Z) - A Novel Hybrid Sampling Framework for Imbalanced Learning [0.0]
SMOTE-RUS-NC」は他の最先端サンプリング技術と比較されている。
26個の不均衡なデータセットで厳密な実験が行われた。
論文 参考訳(メタデータ) (2022-08-20T07:04:00Z) - CARMS: Categorical-Antithetic-REINFORCE Multi-Sample Gradient Estimator [60.799183326613395]
本稿では, 相互に負に相関した複数のサンプルに基づく分類的確率変数の非バイアス推定器を提案する。
CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。
我々は、生成的モデリングタスクと構造化された出力予測タスクに基づいて、いくつかのベンチマークデータセット上でCARMSを評価し、強力な自己制御ベースラインを含む競合する手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-26T20:14:30Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - GMOTE: Gaussian based minority oversampling technique for imbalanced
classification adapting tail probability of outliers [0.0]
データレベルのアプローチは、主にオーバーサンプリングメソッドを使用して問題を解決します。例えば、合成マイノリティオーバーサンプリング技術(SMOTE)です。
本稿では,不均衡データセットに対する統計的観点からガウス型マイノリティオーバーサンプリング手法(gmote)を提案する。
GMOTEが分類および回帰木(CART)またはサポートベクター機械(SVM)と結合されるとき、それはよりよい正確さおよびF1スコアを示します。
論文 参考訳(メタデータ) (2021-05-09T07:04:37Z) - SMOTE-ENC: A novel SMOTE-based method to generate synthetic data for
nominal and continuous features [0.38073142980733]
SMOTE-ENC (SMOTE - Encoded Nominal and Continuous) という新しいマイノリティオーバーサンプリング手法を提案する。
本実験では、SMOTE-ENC法を用いた分類モデルがSMOTE-NCを用いたモデルよりも優れた予測を提供することを示した。
提案手法は,SMOTE-NCアルゴリズムの主な制約の一つに対処する。
論文 参考訳(メタデータ) (2021-03-13T04:16:17Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。