論文の概要: GK-SMOTE: A Hyperparameter-free Noise-Resilient Gaussian KDE-Based Oversampling Approach
- arxiv url: http://arxiv.org/abs/2509.11163v1
- Date: Sun, 14 Sep 2025 08:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.953564
- Title: GK-SMOTE: A Hyperparameter-free Noise-Resilient Gaussian KDE-Based Oversampling Approach
- Title(参考訳): GK-SMOTE:超パラメータフリーノイズ耐性ガウスKDEに基づくオーバーサンプリング手法
- Authors: Mahabubur Rahman Miraj, Hongyu Huang, Ting Yang, Jinxue Zhao, Nankun Mu, Xinyu Lei,
- Abstract要約: 不均衡分類は、特に医療診断、不正検出、サイバーセキュリティといった重要な応用において、機械学習において重要な課題である。
SMOTEのような従来のオーバーサンプリング技術は、しばしばラベルノイズや複雑なデータ分布の処理に失敗し、分類精度が低下する。
ガウスカーネル密度推定(KDE)に基づくSMOTEの耐雑音性拡張であるGK-SMOTEを提案する。
GK-SMOTEは、高密度のマイノリティ領域で合成サンプルを生成し、ノイズやあいまい領域を効果的に回避し、クラス分離性を高める。
- 参考スコア(独自算出の注目度): 5.681470105992214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imbalanced classification is a significant challenge in machine learning, especially in critical applications like medical diagnosis, fraud detection, and cybersecurity. Traditional oversampling techniques, such as SMOTE, often fail to handle label noise and complex data distributions, leading to reduced classification accuracy. In this paper, we propose GK-SMOTE, a hyperparameter-free, noise-resilient extension of SMOTE, built on Gaussian Kernel Density Estimation (KDE). GK-SMOTE enhances class separability by generating synthetic samples in high-density minority regions, while effectively avoiding noisy or ambiguous areas. This self-adaptive approach uses Gaussian KDE to differentiate between safe and noisy regions, ensuring more accurate sample generation without requiring extensive parameter tuning. Our extensive experiments on diverse binary classification datasets demonstrate that GK-SMOTE outperforms existing state-of-the-art oversampling techniques across key evaluation metrics, including MCC, Balanced Accuracy, and AUPRC. The proposed method offers a robust, efficient solution for imbalanced classification tasks, especially in noisy data environments, making it an attractive choice for real-world applications.
- Abstract(参考訳): 不均衡分類は、特に医療診断、不正検出、サイバーセキュリティといった重要な応用において、機械学習において重要な課題である。
SMOTEのような従来のオーバーサンプリング技術は、しばしばラベルノイズや複雑なデータ分布の処理に失敗し、分類精度が低下する。
本稿では,ガウスカーネル密度推定(KDE)に基づくSMOTEの超パラメータフリー・耐雑音性拡張であるGK-SMOTEを提案する。
GK-SMOTEは、高密度のマイノリティ領域で合成サンプルを生成し、ノイズやあいまい領域を効果的に回避し、クラス分離性を高める。
この自己適応的アプローチはガウスKDEを用いて安全な領域とノイズの多い領域を区別し、広範なパラメータチューニングを必要とせずにより正確なサンプル生成を保証する。
多様なバイナリ分類データセットに関する広範な実験により、GK-SMOTEは、MCC、平衡精度、AUPRCを含む主要な評価指標において、既存の最先端のオーバーサンプリング技術よりも優れていることが示された。
提案手法は、特にノイズの多いデータ環境において、不均衡な分類タスクに対して堅牢で効率的なソリューションを提供する。
関連論文リスト
- Optimal Hyperspectral Undersampling Strategy for Satellite Imaging [0.0]
ハイパースペクトル画像分類のための新しい反復ウェーブレットを用いた勾配サンプリング法を提案する。
IWGSはウェーブレット変換領域内の勾配を解析することにより、最も情報性の高いスペクトル帯域を段階的に選択する。
我々はヒューストン2013とインディアンパインズの2つの広く使われているベンチマークHSIデータセットについて包括的な実験を行った。
IWGSは、精度と計算効率の両方の観点から、最先端のバンド選択と分類技術より一貫して優れている。
論文 参考訳(メタデータ) (2025-04-27T15:33:33Z) - GHOST: Gaussian Hypothesis Open-Set Technique [10.426399605773083]
大規模認識手法の評価は通常、全体的な性能に重点を置いている。
オープンセット認識(OSR)における公平性に対処し,クラスごとのパフォーマンスが劇的に変化することを示す。
Zスコア正規化をロジットに適用し、モデルの期待から逸脱する特徴量の影響を軽減する。
論文 参考訳(メタデータ) (2025-02-05T16:56:14Z) - Noise-Adaptive Conformal Classification with Marginal Coverage [53.74125453366155]
本稿では,ランダムラベルノイズによる交換性からの偏差を効率的に処理できる適応型共形推論手法を提案する。
本手法は,合成および実データに対して,その有効性を示す広範囲な数値実験により検証する。
論文 参考訳(メタデータ) (2025-01-29T23:55:23Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Robust Gaussian Processes via Relevance Pursuit [17.39376866275623]
本稿では,データポイント固有ノイズレベルを推定することにより,スパースアウトレーヤに対するロバスト性を実現するGPモデルを提案する。
我々は,データポイント固有ノイズ分散において,関連する対数限界確率が強く抑制されるようなパラメータ化が可能であることを,驚くべきことに示している。
論文 参考訳(メタデータ) (2024-10-31T17:59:56Z) - On the Privacy of Selection Mechanisms with Gaussian Noise [44.577599546904736]
ガウス雑音によるReport Noisy MaxとAbove Thresholdの分析を再検討する。
その結果,Report Noisy Max の純元 DP 境界と Above Threshold の純元 DP 境界を提供することが可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-09T02:11:25Z) - Risk-Sensitive Diffusion: Robustly Optimizing Diffusion Models with Noisy Samples [58.68233326265417]
非画像データは実際のアプリケーションで広く使われており、ノイズが多い傾向にある。
リスク感受性SDEは、リスクベクトルによってパラメータ化された微分方程式(SDE)の一種である。
我々はガウス雑音分布と非ガウス雑音分布の両方について系統的研究を行う。
論文 参考訳(メタデータ) (2024-02-03T08:41:51Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Hybrid Random Features [60.116392415715275]
ハイブリッドランダム特徴(HRF)と呼ばれるソフトマックスとガウス核の線形化のための新しいランダム特徴法を提案する。
HRFは、カーネル推定の品質を自動的に適応し、定義された関心領域の最も正確な近似を提供する。
論文 参考訳(メタデータ) (2021-10-08T20:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。