論文の概要: Theoretical Convergence of SMOTE-Generated Samples
- arxiv url: http://arxiv.org/abs/2601.01927v1
- Date: Mon, 05 Jan 2026 09:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.938949
- Title: Theoretical Convergence of SMOTE-Generated Samples
- Title(参考訳): SMOTE生成試料の理論的収束
- Authors: Firuz Kamalov, Hana Sulieman, Witold Pedrycz,
- Abstract要約: SMOTEの収束特性の厳密な理論的解析を行う。
合成確率変数 Z が基底変数 X に確率収束することを証明する。
最寄りのランクの低い値は、より高速な収束につながる。
- 参考スコア(独自算出の注目度): 47.26889442476884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced data affects a wide range of machine learning applications, from healthcare to network security. As SMOTE is one of the most popular approaches to addressing this issue, it is imperative to validate it not only empirically but also theoretically. In this paper, we provide a rigorous theoretical analysis of SMOTE's convergence properties. Concretely, we prove that the synthetic random variable Z converges in probability to the underlying random variable X. We further prove a stronger convergence in mean when X is compact. Finally, we show that lower values of the nearest neighbor rank lead to faster convergence offering actionable guidance to practitioners. The theoretical results are supported by numerical experiments using both real-life and synthetic data. Our work provides a foundational understanding that enhances data augmentation techniques beyond imbalanced data scenarios.
- Abstract(参考訳): 不均衡なデータは、医療からネットワークセキュリティまで、幅広い機械学習アプリケーションに影響を与える。
SMOTEはこの問題に対処する最も一般的なアプローチの1つであり、経験的だけでなく理論的にも検証することが不可欠である。
本稿では,SMOTEの収束特性の厳密な理論的解析を行う。
具体的には、合成確率変数 Z が基礎となる確率変数 X に収束することが証明される。
最後に, 最寄りのランクの低い値が, 実践者への実用的なガイダンスを提供するために, より高速な収束につながることを示す。
理論的結果は実生活データと合成データの両方を用いて数値実験によって支持される。
我々の研究は、不均衡なデータシナリオを超えて、データ拡張技術を強化する基礎的な理解を提供する。
関連論文リスト
- Beyond Real Data: Synthetic Data through the Lens of Regularization [9.459299281438074]
合成データは、実際のデータが不足しているときに一般化を改善することができるが、過度な依存は、性能を低下させる分布ミスマッチをもたらす可能性がある。
本稿では,合成データと実データとのトレードオフを定量化する学習理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T11:33:09Z) - A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。
最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。
そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:41:26Z) - A Scalable Nyström-Based Kernel Two-Sample Test with Permutations [9.849635250118912]
2サンプル仮説テストは統計学と機械学習の基本的な問題である。
本研究では,最大平均誤差(MMD)のNystr "om approxation"を用いて,計算効率よく実用的なテストアルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-02-19T09:22:48Z) - Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants [5.561618915244982]
我々はSMOTE密度の非漸近上界を複数導出した。
我々は、SMOTEが元のマイノリティのサンプルをコピーする傾向があることを証明した。
我々はSMOTEを理論的な知見に基づいて適用し,2つの新しい変種を導入した。
論文 参考訳(メタデータ) (2024-02-06T09:07:41Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - On the Unreasonable Effectiveness of Federated Averaging with
Heterogeneous Data [39.600069116159695]
既存の理論では、フェデレーション学習におけるフェデレーション平均化(FedAvg)アルゴリズムの性能は、データの不均一性が低下すると予想している。
本稿では,従来の理論的予測と矛盾するFedAvgの有効性について述べる。
論文 参考訳(メタデータ) (2022-06-09T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。