論文の概要: Concentration and excess risk bounds for imbalanced classification with synthetic oversampling
- arxiv url: http://arxiv.org/abs/2510.20472v1
- Date: Thu, 23 Oct 2025 12:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.843965
- Title: Concentration and excess risk bounds for imbalanced classification with synthetic oversampling
- Title(参考訳): 合成オーバーサンプリングを用いた不均衡分類における濃度と過剰リスク境界
- Authors: Touqeer Ahmad, Mohammadreza M. Kalan, François Portier, Gilles Stupfler,
- Abstract要約: 我々は,合成データに基づいて分類器を訓練する際のSMOTEとその関連手法の挙動を解析するための理論的枠組みを開発する。
その結果、SMOTEと下流学習アルゴリズムの両方のパラメータチューニングの実践的ガイドラインが導かれる。
- 参考スコア(独自算出の注目度): 5.974778743092435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic oversampling of minority examples using SMOTE and its variants is a leading strategy for addressing imbalanced classification problems. Despite the success of this approach in practice, its theoretical foundations remain underexplored. We develop a theoretical framework to analyze the behavior of SMOTE and related methods when classifiers are trained on synthetic data. We first derive a uniform concentration bound on the discrepancy between the empirical risk over synthetic minority samples and the population risk on the true minority distribution. We then provide a nonparametric excess risk guarantee for kernel-based classifiers trained using such synthetic data. These results lead to practical guidelines for better parameter tuning of both SMOTE and the downstream learning algorithm. Numerical experiments are provided to illustrate and support the theoretical findings
- Abstract(参考訳): SMOTEとその変種を用いた少数例の合成オーバーサンプリングは、不均衡な分類問題に対処するための主要な戦略である。
実際にこの手法が成功したにもかかわらず、理論上の基礎は未解明のままである。
我々は,合成データに基づいて分類器を訓練する際のSMOTEとその関連手法の挙動を解析するための理論的枠組みを開発する。
まず, 合成マイノリティサンプルに対する経験的リスクと, 真のマイノリティ分布に対する集団的リスクとの相違に限定した均一な濃度を導出する。
次に、このような合成データを用いて訓練されたカーネルベースの分類器に対して、非パラメトリックな過剰リスク保証を提供する。
これらの結果から,SMOTEと下流学習アルゴリズムの両方のパラメータチューニングの実践的ガイドラインが導かれる。
理論的知見を説明・支持するための数値実験
関連論文リスト
- Large Language Models for Imbalanced Classification: Diversity makes the difference [40.03315488727788]
本稿では,多様性を高めるために,新しい大規模言語モデル (LLM) を用いたオーバーサンプリング手法を提案する。
まず,少数なラベルと特徴の両方に合成サンプル生成を条件付けるサンプリング戦略を導入する。
第2に、微調整事前学習LLMのための新しい置換戦略を開発する。
論文 参考訳(メタデータ) (2025-10-10T18:45:29Z) - Learning Majority-to-Minority Transformations with MMD and Triplet Loss for Imbalanced Classification [0.5390869741300152]
教師付き分類におけるクラス不均衡は、多数派に対する予測をバイアスすることでモデル性能を低下させることが多い。
多数サンプルをマイノリティ分布にマッピングするパラメトリック変換を学習するオーバーサンプリングフレームワークを導入する。
提案手法は,グローバルアライメントのためのトランスフォーメーションと真のマイノリティサンプル間の平均最大誤差(MMD)を最小化する。
論文 参考訳(メタデータ) (2025-09-15T01:47:29Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。
近年の進歩は、大規模言語モデルの柔軟性と生成能力を生かして合成サンプルを生成することを提案した。
本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - How does promoting the minority fraction affect generalization? A theoretical study of the one-hidden-layer neural network on group imbalance [64.1656365676171]
グループ不均衡は経験的リスク最小化において既知の問題である。
本稿では,個々の集団がサンプルの複雑さ,収束率,平均および群レベルの試験性能に与える影響を定量化する。
論文 参考訳(メタデータ) (2024-03-12T04:38:05Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。
提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文 参考訳(メタデータ) (2022-04-19T06:02:53Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。