論文の概要: SMOGAN: Synthetic Minority Oversampling with GAN Refinement for Imbalanced Regression
- arxiv url: http://arxiv.org/abs/2504.21152v1
- Date: Tue, 29 Apr 2025 20:15:25 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-05-02 15:47:43.273201
- Title: SMOGAN: Synthetic Minority Oversampling with GAN Refinement for Imbalanced Regression
- Title(参考訳): SMOGAN:不均衡回帰のためのGANリファインメントによる合成マイノリティオーバーサンプリング
- Authors: Shayan Alahyari, Mike Domaratzki,
- Abstract要約: 不均衡回帰とは、ターゲット変数が歪んだ予測タスクを指す。
この歪みは、高密度領域に集中する機械学習モデル、特にニューラルネットワークを妨げる。
不均衡回帰のための2段階オーバーサンプリングフレームワークであるSMOGANを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Imbalanced regression refers to prediction tasks where the target variable is skewed. This skewness hinders machine learning models, especially neural networks, which concentrate on dense regions and therefore perform poorly on underrepresented (minority) samples. Despite the importance of this problem, only a few methods have been proposed for imbalanced regression. Many of the available solutions for imbalanced regression adapt techniques from the class imbalance domain, such as linear interpolation and the addition of Gaussian noise, to create synthetic data in sparse regions. However, in many cases, the underlying distribution of the data is complex and non-linear. Consequently, these approaches generate synthetic samples that do not accurately represent the true feature-target relationship. To overcome these limitations, we propose SMOGAN, a two-step oversampling framework for imbalanced regression. In Stage 1, an existing oversampler generates initial synthetic samples in sparse target regions. In Stage 2, we introduce DistGAN, a distribution-aware GAN that serves as SMOGAN's filtering layer and refines these samples via adversarial loss augmented with a Maximum Mean Discrepancy objective, aligning them with the true joint feature-target distribution. Extensive experiments on 23 imbalanced datasets show that SMOGAN consistently outperforms the default oversampling method without the DistGAN filtering layer.
- Abstract(参考訳): 不均衡回帰とは、ターゲット変数が歪んだ予測タスクを指す。
この歪みは、密度の高い領域に集中する機械学習モデル、特にニューラルネットワークを妨げるため、表現不足(マイノリティ)のサンプルでは不十分である。
この問題の重要性にもかかわらず、不均衡回帰にはいくつかの方法が提案されている。
線形補間やガウスノイズの追加など、クラス不均衡領域からの不均衡回帰手法を適用可能なソリューションの多くは、スパース領域で合成データを生成する。
しかし、多くの場合、データの基盤となる分布は複雑で非線形である。
その結果、これらの手法は真の特徴-対象関係を正確に表現しない合成サンプルを生成する。
これらの制限を克服するため、不均衡回帰のための2段階オーバーサンプリングフレームワークであるSMOGANを提案する。
ステージ1では、既存のオーバーサンプラーがスパースターゲット領域で初期合成サンプルを生成する。
ステージ2では,SMOGANのフィルタリング層として機能する分散対応GANであるDistGANを導入し,最大平均離散度を目標とした対角的損失によってこれらのサンプルを改良し,真の関節機能-ターゲット分布と整合させる。
23の非バランスなデータセットに対する大規模な実験は、SMOGANがDistGANフィルタリング層なしで、デフォルトのオーバーサンプリングメソッドを一貫して上回っていることを示している。
関連論文リスト
- Local distribution-based adaptive oversampling for imbalanced regression [0.0]
不均衡回帰は、連続目標変数が歪んだ分布を持ち、スパース領域を生成するときに起こる。
LDAO(Local Distribution-based Adaptive Oversampling, 局所分布に基づく適応オーバーサンプリング)を提案する。
LDAOは、各局所分布に固有の統計構造を保持しながら、目標範囲全体にわたってバランスの取れた表現を実現する。
論文 参考訳(メタデータ) (2025-04-19T14:36:41Z) - Histogram Approaches for Imbalanced Data Streams Regression [1.8385275253826225]
不均衡なドメインは、特に回帰の文脈において、現実世界の予測分析において重要な課題となる。
本研究では,この制約を克服するためのヒストグラムに基づくサンプリング手法を提案する。
合成および実世界のベンチマークに関する総合的な実験により、HistUSとHistOSは稀な予測精度を大幅に改善した。
論文 参考訳(メタデータ) (2025-01-29T11:03:02Z) - On the Wasserstein Convergence and Straightness of Rectified Flow [54.580605276017096]
Rectified Flow (RF) は、ノイズからデータへの直流軌跡の学習を目的とした生成モデルである。
RFのサンプリング分布とターゲット分布とのワッサーシュタイン距離に関する理論的解析を行った。
本稿では,従来の経験的知見と一致した1-RFの特異性と直線性を保証する一般的な条件について述べる。
論文 参考訳(メタデータ) (2024-10-19T02:36:11Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - INGB: Informed Nonlinear Granular Ball Oversampling Framework for Noisy
Imbalanced Classification [23.9207014576848]
分類問題では、データセットは通常、不均衡、ノイズ、複雑である。
本稿では, グラニュラーボール(INGB)をオーバーサンプリングの新たな方向とする非線形オーバーサンプリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-03T01:55:20Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Imbalanced Class Data Performance Evaluation and Improvement using Novel
Generative Adversarial Network-based Approach: SSG and GBO [0.0]
本研究は, GAN-based Oversampling (GBO) と Support Vector Machine-SMOTE-GAN (SSG) の2つの新しい手法を提案する。
予備計算の結果、SSGとGBOは元のSMOTEよりも、拡張された不均衡な8つのベンチマークデータセットでより良い性能を示した。
論文 参考訳(メタデータ) (2022-10-23T22:17:54Z) - Instability and Local Minima in GAN Training with Kernel Discriminators [20.362912591032636]
GAN(Generative Adversarial Networks)は、複雑なデータの生成モデリングに広く使われているツールである。
実験的な成功にもかかわらず、ジェネレータと判別器のmin-max最適化のため、GANの訓練は十分には理解されていない。
本稿では、真のサンプルと生成されたサンプルが離散有限集合であり、判別器がカーネルベースである場合に、これらの関節力学を解析する。
論文 参考訳(メタデータ) (2022-08-21T18:03:06Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。