論文の概要: Histogram Approaches for Imbalanced Data Streams Regression
- arxiv url: http://arxiv.org/abs/2501.17568v2
- Date: Thu, 13 Mar 2025 11:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 14:52:25.572496
- Title: Histogram Approaches for Imbalanced Data Streams Regression
- Title(参考訳): 不均衡データストリーム回帰のためのヒストグラムアプローチ
- Authors: Ehsan Aminian, Rita P. Ribeiro, Joao Gama,
- Abstract要約: 不均衡なドメインは、特に回帰の文脈において、現実世界の予測分析において重要な課題となる。
本研究では,この制約を克服するためのヒストグラムに基づくサンプリング手法を提案する。
合成および実世界のベンチマークに関する総合的な実験により、HistUSとHistOSは稀な予測精度を大幅に改善した。
- 参考スコア(独自算出の注目度): 1.8385275253826225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imbalanced domains pose a significant challenge in real-world predictive analytics, particularly in the context of regression. While existing research has primarily focused on batch learning from static datasets, limited attention has been given to imbalanced regression in online learning scenarios. Intending to address this gap, in prior work, we proposed sampling strategies based on Chebyshevs inequality as the first methodologies designed explicitly for data streams. However, these approaches operated under the restrictive assumption that rare instances exclusively reside at distribution extremes. This study introduces histogram-based sampling strategies to overcome this constraint, proposing flexible solutions for imbalanced regression in evolving data streams. The proposed techniques -- Histogram-based Undersampling (HistUS) and Histogram-based Oversampling (HistOS) -- employ incremental online histograms to dynamically detect and prioritize rare instances across arbitrary regions of the target distribution to improve predictions in the rare cases. Comprehensive experiments on synthetic and real-world benchmarks demonstrate that HistUS and HistOS substantially improve rare-case prediction accuracy, outperforming baseline models while maintaining competitiveness with Chebyshev-based approaches.
- Abstract(参考訳): 不均衡なドメインは、特に回帰の文脈において、現実世界の予測分析において重要な課題となる。
既存の研究は主に静的データセットからのバッチ学習に重点を置いているが、オンライン学習シナリオにおける不均衡な回帰には限定的な注意が向けられている。
このギャップに対処するため、我々はChebyshevsの不等式に基づくサンプリング戦略を、データストリームを明示的に設計した最初の手法として提案した。
しかし、これらのアプローチは、まれな例が極端分布にのみ存在するという制限的な仮定の下で機能する。
本研究では、この制約を克服するためのヒストグラムに基づくサンプリング戦略を導入し、進化するデータストリームにおける不均衡回帰に対する柔軟な解を提案する。
提案手法 - Histogram-based Undersampling (HistUS) と Histogram-based Oversampling (HistOS) - は、インクリメンタルなオンラインヒストグラムを用いて、ターゲット分布の任意の領域にわたるレアなインスタンスを動的に検出し、優先順位付けし、レアケースの予測を改善する。
人工的および実世界のベンチマークに関する総合的な実験により、HistUSとHistOSはチェビシェフベースのアプローチとの競争性を維持しつつ、ベースラインモデルより優れている希少ケースの予測精度を大幅に改善した。
関連論文リスト
- SMOGAN: Synthetic Minority Oversampling with GAN Refinement for Imbalanced Regression [0.0]
不均衡回帰とは、ターゲット変数が歪んだ予測タスクを指す。
この歪みは、高密度領域に集中する機械学習モデル、特にニューラルネットワークを妨げる。
不均衡回帰のための2段階オーバーサンプリングフレームワークであるSMOGANを提案する。
論文 参考訳(メタデータ) (2025-04-29T20:15:25Z) - Local distribution-based adaptive oversampling for imbalanced regression [0.0]
不均衡回帰は、連続目標変数が歪んだ分布を持ち、スパース領域を生成するときに起こる。
LDAO(Local Distribution-based Adaptive Oversampling, 局所分布に基づく適応オーバーサンプリング)を提案する。
LDAOは、各局所分布に固有の統計構造を保持しながら、目標範囲全体にわたってバランスの取れた表現を実現する。
論文 参考訳(メタデータ) (2025-04-19T14:36:41Z) - On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Out of the Ordinary: Spectrally Adapting Regression for Covariate Shift [12.770658031721435]
本稿では,学習前のニューラル回帰モデルの最後の層の重みを適応させて,異なる分布から得られる入力データを改善する手法を提案する。
本稿では,この軽量なスペクトル適応手法により,合成および実世界のデータセットの分布外性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-29T04:15:58Z) - A Conditioned Unsupervised Regression Framework Attuned to the Dynamic Nature of Data Streams [0.0]
本稿では,制限付きラベル付きデータを用いたストリーミング環境の最適戦略を提案し,教師なし回帰のための適応手法を提案する。
提案手法は,初期ラベルのスパースセットを活用し,革新的なドリフト検出機構を導入する。
適応性を高めるために,Adaptive WINdowingアルゴリズムとRoot Mean Square Error (RMSE)に基づく誤り一般化アルゴリズムを統合する。
論文 参考訳(メタデータ) (2023-12-12T19:23:54Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generalized Oversampling for Learning from Imbalanced datasets and
Associated Theory [0.0]
教師あり学習では、実際の不均衡なデータセットに直面することが多い。
本稿では,カーネル密度推定に基づくデータ拡張手法であるGOLIATHアルゴリズムを提案する。
我々は,不均衡な回帰状況下でのGOLIATHアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-08-05T23:08:08Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference
with Partially Labeled Data [10.021381302215062]
現実のシナリオでは、データ収集の制限によって部分的にラベル付けされたデータセットが生成されることが多く、信頼性の高い因果推論の描画が困難になる。
半パラメトリック(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。
このフレームワークは、高次元設定における欠落した結果に対処し、選択バイアスを考慮に入れます。
論文 参考訳(メタデータ) (2023-05-22T07:37:12Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Variation-Incentive Loss Re-weighting for Regression Analysis on Biased
Data [8.115323786541078]
モデルトレーニング中のデータ歪/バイアスに対処することで回帰分析の精度を向上させることを目的としている。
回帰分析のための勾配降下モデルトレーニングを最適化するために,変分集中損失再重み付け法(VILoss)を提案する。
論文 参考訳(メタデータ) (2021-09-14T10:22:21Z) - Heteroskedastic and Imbalanced Deep Learning with Adaptive
Regularization [55.278153228758434]
実世界のデータセットはヘテロスケダティックで不均衡である。
ヘテロスケダスティック性と不均衡を同時に扱うことは、未発見である。
本稿ではヘテロスケダスティックデータセットに対するデータ依存正規化手法を提案する。
論文 参考訳(メタデータ) (2020-06-29T01:09:50Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - TraDE: Transformers for Density Estimation [101.20137732920718]
TraDEは自己回帰密度推定のための自己アテンションに基づくアーキテクチャである。
本稿では, 生成したサンプルを用いた回帰, 分布外検出, トレーニングデータにおける雑音に対する頑健性などのタスクについて述べる。
論文 参考訳(メタデータ) (2020-04-06T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。