論文の概要: Model-agnostic Mitigation Strategies of Data Imbalance for Regression
- arxiv url: http://arxiv.org/abs/2506.01486v1
- Date: Mon, 02 Jun 2025 09:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.179134
- Title: Model-agnostic Mitigation Strategies of Data Imbalance for Regression
- Title(参考訳): 回帰のためのデータ不均衡のモデル非依存緩和戦略
- Authors: Jelke Wibbeke, Sebastian Rohjans, Andreas Rauh,
- Abstract要約: データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。
既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。
モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data imbalance persists as a pervasive challenge in regression tasks, introducing bias in model performance and undermining predictive reliability. This is particularly detrimental in applications aimed at predicting rare events that fall outside the domain of the bulk of the training data. In this study, we review the current state-of-the-art regarding sampling-based methods and cost-sensitive learning. Additionally, we propose novel approaches to mitigate model bias. To better asses the importance of data, we introduce the density-distance and density-ratio relevance functions, which effectively integrate empirical frequency of data with domain-specific preferences, offering enhanced interpretability for end-users. Furthermore, we present advanced mitigation techniques (cSMOGN and crbSMOGN), which build upon and improve existing sampling methods. In a comprehensive quantitative evaluation, we benchmark state-of-the-art methods on 10 synthetic and 42 real-world datasets, using neural networks, XGBoosting trees and Random Forest models. Our analysis reveals that while most strategies improve performance on rare samples, they often degrade it on frequent ones. We demonstrate that constructing an ensemble of models -- one trained with imbalance mitigation and another without -- can significantly reduce these negative effects. The key findings underscore the superior performance of our novel crbSMOGN sampling technique with the density-ratio relevance function for neural networks, outperforming state-of-the-art methods.
- Abstract(参考訳): データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。
これは、トレーニングデータの大部分のドメイン外にある稀なイベントを予測するアプリケーションにおいて特に有害である。
本研究では,サンプリングに基づく手法とコスト感受性学習について,現状を概観する。
さらに,モデルバイアスを軽減する新しい手法を提案する。
データの重要性をよりよく評価するために、我々は、データの経験的頻度とドメイン固有の嗜好を効果的に統合し、エンドユーザーに対して高い解釈性を提供する密度距離と密度比の関連関数を導入する。
さらに,既存のサンプリング手法を構築し改良する高度な緩和技術 (cSMOGN と crbSMOGN) を提案する。
総合的な定量的評価では、ニューラルネットワーク、XGBoosting Tree、ランダムフォレストモデルを用いて、10の合成および42の現実世界のデータセットに対して最先端の手法をベンチマークする。
我々の分析によると、ほとんどの戦略は希少なサンプルのパフォーマンスを改善するが、頻繁なサンプルでは劣化することが多い。
モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
その結果,ニューラルネットワークの密度比相関関数を用いた新しいcrbSMOGNサンプリング技術の性能は,最先端の手法よりも優れていた。
関連論文リスト
- CART-based Synthetic Tabular Data Generation for Imbalanced Regression [1.342834401139078]
我々は、既存のCARTベースの合成データ生成手法を適応させ、不均衡回帰に適合させることを提案する。
本手法は, 対象空間のスパース領域におけるサンプリングを誘導するための関連性および密度に基づくメカニズムを統合する。
本実験は,ベンチマークデータセット間での極端目標値の予測に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-03T12:42:20Z) - Golden Ratio Weighting Prevents Model Collapse [9.087950471621653]
近年の研究では、モデル崩壊として知られる生成モデルトレーニングにおける現象が特定されている。
本稿では,新たに収集した実データと合成データを組み合わせて生成モデルを反復的に訓練する新しい枠組みの中で,この現象を理論的に検討する。
論文 参考訳(メタデータ) (2025-02-25T10:15:16Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Testing and Improving the Robustness of Amortized Bayesian Inference for Cognitive Models [0.5223954072121659]
汚染物質観測とアウトリーチは、認知モデルのパラメータを推定する際にしばしば問題を引き起こす。
本研究では,アモルタイズされたベイズ推定を用いたパラメータ推定のロバスト性を検証・改善する。
提案手法は実装が簡単で実用的であり,外乱検出や除去が困難な分野に適用可能である。
論文 参考訳(メタデータ) (2024-12-29T21:22:24Z) - Rethinking negative sampling in content-based news recommendation [1.5416095780642964]
ニュースレコメンデーターシステムは、記事の短い寿命によって妨げられている。
近年の研究では、この問題に対処するためのコンテンツベースニューラルネットワークの可能性が実証されている。
本研究では, 否定例の慎重なサンプリングが, モデルの結果に大きな影響を与えることを示唆する。
論文 参考訳(メタデータ) (2024-11-13T15:42:13Z) - On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Systematic Evaluation of Synthetic Data Augmentation for Multi-class NetFlow Traffic [2.5182419298876857]
マルチクラス分類モデルは特定のタイプの攻撃を識別し、より標的的で効果的なインシデント応答を可能にする。
最近の進歩は、生成モデルがデータの増大を補助し、不均衡なデータセットに対して優れたソリューションを提供すると主張することを示唆している。
本実験は,トレーニングデータのバランスをとる再サンプリング手法が,分類性能を確実に向上させるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-08-28T12:44:07Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。