Fugu-MT 論文翻訳(概要): Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

論文の概要: Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

arxiv url: http://arxiv.org/abs/2402.03819v4
Date: Thu, 22 May 2025 07:34:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:47.585896
Title: Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants
Title（参考訳）: 再バランス戦略は必要か? : SMOTEとその変種に関する理論的および実証的研究
Authors: Abdoulaye Sakho, Emmanuel Malherbe, Erwan Scornet,
Abstract要約: 我々はSMOTE密度の非漸近上界を複数導出した。我々は、SMOTEが元のマイノリティのサンプルをコピーする傾向があることを証明した。我々はSMOTEを理論的な知見に基づいて適用し,2つの新しい変種を導入した。
参考スコア（独自算出の注目度）: 5.561618915244982
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Synthetic Minority Oversampling Technique (SMOTE) is a common rebalancing strategy for handling imbalanced tabular data sets. However, few works analyze SMOTE theoretically. In this paper, we derive several non-asymptotic upper bound on SMOTE density. From these results, we prove that SMOTE (with default parameter) tends to copy the original minority samples asymptotically. We confirm and illustrate empirically this first theoretical behavior on a real-world data-set.bFurthermore, we prove that SMOTE density vanishes near the boundary of the support of the minority class distribution. We then adapt SMOTE based on our theoretical findings to introduce two new variants. These strategies are compared on 13 tabular data sets with 10 state-of-the-art rebalancing procedures, including deep generative and diffusion models. One of our key findings is that, for most data sets, applying no rebalancing strategy is competitive in terms of predictive performances, would it be with LightGBM, tuned random forests or logistic regression. However, when the imbalance ratio is artificially augmented, one of our two modifications of SMOTE leads to promising predictive performances compared to SMOTE and other state-of-the-art strategies.
Abstract（参考訳）: SMOTE(Synthetic Minority Oversampling Technique)は、不均衡な表付きデータセットを扱うための一般的な再バランス手法である。しかし、SMOTEを理論的に分析する研究はほとんどない。本稿では,SMOTE密度に基づく非漸近上界のいくつかを導出する。これらの結果から、SMOTE(デフォルトパラメータを持つ)が元のマイノリティ標本を漸近的にコピーする傾向があることを証明した。さらに、SMOTE密度がマイノリティクラス分布の支持の境界付近で消滅することを証明する。次に、理論的な結果に基づいてSMOTEを適応し、2つの新しい変種を導入する。これらの戦略は、深い生成モデルや拡散モデルを含む10の最先端のリバランス手順を備えた13の表型データセットで比較される。重要な発見の1つは、ほとんどのデータセットにおいて、再バランス戦略を適用することは予測性能の点で競合するものではなく、LightGBM、調整されたランダムフォレスト、ロジスティックレグレッションと競合することです。しかし、不均衡比が人工的に増大すると、SMOTEの2つの修正のうちの1つは、SMOTEや他の最先端戦略と比較して有望な予測性能をもたらす。

関連論文リスト

Sharp Convergence Rates for Masked Diffusion Models [53.117058231393834]
制約を克服するオイラー法に対する全変分に基づく解析法を開発した。その結果、スコア推定の仮定を緩和し、パラメータ依存性を改善し、収束保証を確立する。全体としては,CTMC軌道に沿った直接テレビによる誤り分解と,FHSのためのデカップリングに基づく経路解析を導入している。
論文参考訳（メタデータ） (2026-02-26T00:47:51Z)
Improving Minimax Estimation Rates for Contaminated Mixture of Multinomial Logistic Experts via Expert Heterogeneity [49.809923981964715]
凍結したエキスパートとして機能する事前訓練されたモデルを、新しいタスクを学ぶためにトレーニング可能なエキスパートとして機能するアダプタモデルに統合するトランスファー学習手法によって、汚染された専門家の混合(MoE)が動機付けられる。本研究は, 地絡パラメータがサンプルサイズによって異なる困難な条件下で, パラメータを推定するための一様収束率を特徴付ける。また、対応するミニマックス下限を定め、これらのレートがミニマックス最適であることを保証する。
論文参考訳（メタデータ） (2026-01-31T23:45:50Z)
Theoretical Convergence of SMOTE-Generated Samples [47.26889442476884]
SMOTEの収束特性の厳密な理論的解析を行う。合成確率変数 Z が基底変数 X に確率収束することを証明する。最寄りのランクの低い値は、より高速な収束につながる。
論文参考訳（メタデータ） (2026-01-05T09:19:45Z)
Concentration and excess risk bounds for imbalanced classification with synthetic oversampling [5.974778743092435]
我々は,合成データに基づいて分類器を訓練する際のSMOTEとその関連手法の挙動を解析するための理論的枠組みを開発する。その結果、SMOTEと下流学習アルゴリズムの両方のパラメータチューニングの実践的ガイドラインが導かれる。
論文参考訳（メタデータ） (2025-10-23T12:12:51Z)
Large Language Models for Imbalanced Classification: Diversity makes the difference [40.03315488727788]
本稿では,多様性を高めるために,新しい大規模言語モデル (LLM) を用いたオーバーサンプリング手法を提案する。まず,少数なラベルと特徴の両方に合成サンプル生成を条件付けるサンプリング戦略を導入する。第2に、微調整事前学習LLMのための新しい置換戦略を開発する。
論文参考訳（メタデータ） (2025-10-10T18:45:29Z)
MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文参考訳（メタデータ） (2025-09-25T14:58:29Z)
Learning Majority-to-Minority Transformations with MMD and Triplet Loss for Imbalanced Classification [0.5390869741300152]
教師付き分類におけるクラス不均衡は、多数派に対する予測をバイアスすることでモデル性能を低下させることが多い。多数サンプルをマイノリティ分布にマッピングするパラメトリック変換を学習するオーバーサンプリングフレームワークを導入する。提案手法は,グローバルアライメントのためのトランスフォーメーションと真のマイノリティサンプル間の平均最大誤差(MMD)を最小化する。
論文参考訳（メタデータ） (2025-09-15T01:47:29Z)
CART-based Synthetic Tabular Data Generation for Imbalanced Regression [1.342834401139078]
我々は、既存のCARTベースの合成データ生成手法を適応させ、不均衡回帰に適合させることを提案する。本手法は, 対象空間のスパース領域におけるサンプリングを誘導するための関連性および密度に基づくメカニズムを統合する。本実験は,ベンチマークデータセット間での極端目標値の予測に焦点をあてる。
論文参考訳（メタデータ） (2025-06-03T12:42:20Z)
SMOGAN: Synthetic Minority Oversampling with GAN Refinement for Imbalanced Regression [0.0]
不均衡回帰とは、ターゲット変数が歪んだ予測タスクを指す。この歪みは、高密度領域に集中する機械学習モデル、特にニューラルネットワークを妨げる。不均衡回帰のための2段階オーバーサンプリングフレームワークであるSMOGANを提案する。
論文参考訳（メタデータ） (2025-04-29T20:15:25Z)
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文参考訳（メタデータ） (2025-04-01T13:13:43Z)
Harnessing Mixed Features for Imbalance Data Oversampling: Application to Bank Customers Scoring [5.091061468748012]
MGS-GRFは複合機能用に設計されたオーバーサンプリング戦略である。その結果,MGS-GRFはコヒーレンス(コヒーレンス),すなわち,原データセットにすでに存在する分類的特徴の組み合わせのみを生成できる能力,すなわち連続的特徴と分類的特徴との依存性を維持できる能力の2つの重要な特性を示すことがわかった。
論文参考訳（メタデータ） (2025-03-26T08:53:40Z)
Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文参考訳（メタデータ） (2025-02-14T03:26:57Z)
Pairwise Comparisons without Stochastic Transitivity: Model, Theory and Applications [2.4938353164011446]
遷移性の仮定を伴わないペアワイズ比較データに対する統計モデル群を提案する。提案した推定器は、データの空間レベルに効果的に適応するミニマックスレート最適性を達成する。
論文参考訳（メタデータ） (2025-01-13T16:05:41Z)
Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。 LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-10T18:51:53Z)
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T09:41:19Z)
Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文参考訳（メタデータ） (2023-06-18T01:58:59Z)
Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文参考訳（メタデータ） (2023-06-15T16:30:08Z)
BSGAN: A Novel Oversampling Technique for Imbalanced Pattern Recognitions [0.0]
クラス不均衡問題(CIP)は、予測のための非バイアスの機械学習(ML)モデルを開発する際の潜在的な課題の1つである。 CIPは、データサンプルが2つまたは複数のクラス間で等しく分散されていない場合に発生する。本研究では,より多様なデータを生成するために,境界線SMOTEとジェネレーティブ・アドリラル・ネットワークのパワーを組み合わせたハイブリッド・オーバーサンプリング手法を提案する。
論文参考訳（メタデータ） (2023-05-16T20:02:39Z)
Imbalanced Class Data Performance Evaluation and Improvement using Novel Generative Adversarial Network-based Approach: SSG and GBO [0.0]
本研究は, GAN-based Oversampling (GBO) と Support Vector Machine-SMOTE-GAN (SSG) の2つの新しい手法を提案する。予備計算の結果、SSGとGBOは元のSMOTEよりも、拡張された不均衡な8つのベンチマークデータセットでより良い性能を示した。
論文参考訳（メタデータ） (2022-10-23T22:17:54Z)
A Novel Hybrid Sampling Framework for Imbalanced Learning [0.0]
SMOTE-RUS-NC」は他の最先端サンプリング技術と比較されている。 26個の不均衡なデータセットで厳密な実験が行われた。
論文参考訳（メタデータ） (2022-08-20T07:04:00Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)
CARMS: Categorical-Antithetic-REINFORCE Multi-Sample Gradient Estimator [60.799183326613395]
本稿では, 相互に負に相関した複数のサンプルに基づく分類的確率変数の非バイアス推定器を提案する。 CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。我々は、生成的モデリングタスクと構造化された出力予測タスクに基づいて、いくつかのベンチマークデータセット上でCARMSを評価し、強力な自己制御ベースラインを含む競合する手法より優れていることを示す。
論文参考訳（メタデータ） (2021-10-26T20:14:30Z)
Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文参考訳（メタデータ） (2021-10-20T02:25:25Z)
GMOTE: Gaussian based minority oversampling technique for imbalanced classification adapting tail probability of outliers [0.0]
データレベルのアプローチは、主にオーバーサンプリングメソッドを使用して問題を解決します。例えば、合成マイノリティオーバーサンプリング技術(SMOTE)です。本稿では,不均衡データセットに対する統計的観点からガウス型マイノリティオーバーサンプリング手法(gmote)を提案する。 GMOTEが分類および回帰木(CART)またはサポートベクター機械(SVM)と結合されるとき、それはよりよい正確さおよびF1スコアを示します。
論文参考訳（メタデータ） (2021-05-09T07:04:37Z)
SMOTE-ENC: A novel SMOTE-based method to generate synthetic data for nominal and continuous features [0.38073142980733]
SMOTE-ENC (SMOTE - Encoded Nominal and Continuous) という新しいマイノリティオーバーサンプリング手法を提案する。本実験では、SMOTE-ENC法を用いた分類モデルがSMOTE-NCを用いたモデルよりも優れた予測を提供することを示した。提案手法は,SMOTE-NCアルゴリズムの主な制約の一つに対処する。
論文参考訳（メタデータ） (2021-03-13T04:16:17Z)
Comparing Probability Distributions with Conditional Transport [63.11403041984197]
新しい発散として条件輸送(CT)を提案し、償却されたCT(ACT)コストと近似します。 ACTは条件付き輸送計画の計算を補正し、計算が容易な非バイアスのサンプル勾配を持つ。さまざまなベンチマークデータセットのジェネレーティブモデリングでは、既存のジェネレーティブ敵対ネットワークのデフォルトの統計距離をACTに置き換えることで、一貫してパフォーマンスを向上させることが示されています。
論文参考訳（メタデータ） (2020-12-28T05:14:22Z)
Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文参考訳（メタデータ） (2020-10-01T17:51:49Z)
The Simulator: Understanding Adaptive Sampling in the Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文参考訳（メタデータ） (2017-02-16T23:42:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。