論文の概要: Histogram Approaches for Imbalanced Data Streams Regression
- arxiv url: http://arxiv.org/abs/2501.17568v2
- Date: Thu, 13 Mar 2025 11:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:49:28.546535
- Title: Histogram Approaches for Imbalanced Data Streams Regression
- Title(参考訳): 不均衡データストリーム回帰のためのヒストグラムアプローチ
- Authors: Ehsan Aminian, Rita P. Ribeiro, Joao Gama,
- Abstract要約: 不均衡なドメインは、特に回帰の文脈において、現実世界の予測分析において重要な課題となる。
本研究では,この制約を克服するためのヒストグラムに基づくサンプリング手法を提案する。
合成および実世界のベンチマークに関する総合的な実験により、HistUSとHistOSは稀な予測精度を大幅に改善した。
- 参考スコア(独自算出の注目度): 1.8385275253826225
- License:
- Abstract: Imbalanced domains pose a significant challenge in real-world predictive analytics, particularly in the context of regression. While existing research has primarily focused on batch learning from static datasets, limited attention has been given to imbalanced regression in online learning scenarios. Intending to address this gap, in prior work, we proposed sampling strategies based on Chebyshevs inequality as the first methodologies designed explicitly for data streams. However, these approaches operated under the restrictive assumption that rare instances exclusively reside at distribution extremes. This study introduces histogram-based sampling strategies to overcome this constraint, proposing flexible solutions for imbalanced regression in evolving data streams. The proposed techniques -- Histogram-based Undersampling (HistUS) and Histogram-based Oversampling (HistOS) -- employ incremental online histograms to dynamically detect and prioritize rare instances across arbitrary regions of the target distribution to improve predictions in the rare cases. Comprehensive experiments on synthetic and real-world benchmarks demonstrate that HistUS and HistOS substantially improve rare-case prediction accuracy, outperforming baseline models while maintaining competitiveness with Chebyshev-based approaches.
- Abstract(参考訳): 不均衡なドメインは、特に回帰の文脈において、現実世界の予測分析において重要な課題となる。
既存の研究は主に静的データセットからのバッチ学習に重点を置いているが、オンライン学習シナリオにおける不均衡な回帰には限定的な注意が向けられている。
このギャップに対処するため、我々はChebyshevsの不等式に基づくサンプリング戦略を、データストリームを明示的に設計した最初の手法として提案した。
しかし、これらのアプローチは、まれな例が極端分布にのみ存在するという制限的な仮定の下で機能する。
本研究では、この制約を克服するためのヒストグラムに基づくサンプリング戦略を導入し、進化するデータストリームにおける不均衡回帰に対する柔軟な解を提案する。
提案手法 - Histogram-based Undersampling (HistUS) と Histogram-based Oversampling (HistOS) - は、インクリメンタルなオンラインヒストグラムを用いて、ターゲット分布の任意の領域にわたるレアなインスタンスを動的に検出し、優先順位付けし、レアケースの予測を改善する。
人工的および実世界のベンチマークに関する総合的な実験により、HistUSとHistOSはチェビシェフベースのアプローチとの競争性を維持しつつ、ベースラインモデルより優れている希少ケースの予測精度を大幅に改善した。
関連論文リスト
- Error Distribution Smoothing:Advancing Low-Dimensional Imbalanced Regression [2.435853975142516]
実世界の回帰タスクでは、データセットは頻繁に不均衡な分布を示し、その特徴は、高複雑さ領域におけるデータの不足と低複雑さ領域における量の不足である。
データ密度のみに焦点をあてる従来の定義を超えて、問題の複雑さとデータポイントの密度の両方を考慮に入れた「不均衡回帰」という新しい概念を導入する。
本研究では,不均衡な回帰に対処するための解として誤り分布平滑化(EDS)を提案し,バランスと代表性を保ちながら,データセットから代表サブセットを効果的に選択し冗長性を低減する。
論文 参考訳(メタデータ) (2025-02-04T12:40:07Z) - Out of the Ordinary: Spectrally Adapting Regression for Covariate Shift [12.770658031721435]
本稿では,学習前のニューラル回帰モデルの最後の層の重みを適応させて,異なる分布から得られる入力データを改善する手法を提案する。
本稿では,この軽量なスペクトル適応手法により,合成および実世界のデータセットの分布外性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-29T04:15:58Z) - A Conditioned Unsupervised Regression Framework Attuned to the Dynamic Nature of Data Streams [0.0]
本稿では,制限付きラベル付きデータを用いたストリーミング環境の最適戦略を提案し,教師なし回帰のための適応手法を提案する。
提案手法は,初期ラベルのスパースセットを活用し,革新的なドリフト検出機構を導入する。
適応性を高めるために,Adaptive WINdowingアルゴリズムとRoot Mean Square Error (RMSE)に基づく誤り一般化アルゴリズムを統合する。
論文 参考訳(メタデータ) (2023-12-12T19:23:54Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generalized Oversampling for Learning from Imbalanced datasets and
Associated Theory [0.0]
教師あり学習では、実際の不均衡なデータセットに直面することが多い。
本稿では,カーネル密度推定に基づくデータ拡張手法であるGOLIATHアルゴリズムを提案する。
我々は,不均衡な回帰状況下でのGOLIATHアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-08-05T23:08:08Z) - The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference
with Partially Labeled Data [10.021381302215062]
現実のシナリオでは、データ収集の制限によって部分的にラベル付けされたデータセットが生成されることが多く、信頼性の高い因果推論の描画が困難になる。
半パラメトリック(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。
このフレームワークは、高次元設定における欠落した結果に対処し、選択バイアスを考慮に入れます。
論文 参考訳(メタデータ) (2023-05-22T07:37:12Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Heteroskedastic and Imbalanced Deep Learning with Adaptive
Regularization [55.278153228758434]
実世界のデータセットはヘテロスケダティックで不均衡である。
ヘテロスケダスティック性と不均衡を同時に扱うことは、未発見である。
本稿ではヘテロスケダスティックデータセットに対するデータ依存正規化手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T01:09:50Z) - TraDE: Transformers for Density Estimation [101.20137732920718]
TraDEは自己回帰密度推定のための自己アテンションに基づくアーキテクチャである。
本稿では, 生成したサンプルを用いた回帰, 分布外検出, トレーニングデータにおける雑音に対する頑健性などのタスクについて述べる。
論文 参考訳(メタデータ) (2020-04-06T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。