論文の概要: Highly Imbalanced Regression with Tabular Data in SEP and Other Applications
- arxiv url: http://arxiv.org/abs/2509.16339v2
- Date: Tue, 23 Sep 2025 14:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 14:02:59.907809
- Title: Highly Imbalanced Regression with Tabular Data in SEP and Other Applications
- Title(参考訳): SEPとその他の応用における語彙データとの高不均衡回帰
- Authors: Josias K. Moukpe, Philip K. Chan, Ming Zhang,
- Abstract要約: 我々は1000以上の不均衡比を持つデータを用いた不均衡回帰について検討した。
本稿では,相関,モノトニック・インボリューション(MDI)の重要性,階層化サンプリングを取り入れたCISIRを提案する。
実験結果から, CISIRは近年の手法に比べて誤差が低く, 相関性も高いことが示唆された。
- 参考スコア(独自算出の注目度): 3.1217374696028366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate imbalanced regression with tabular data that have an imbalance ratio larger than 1,000 ("highly imbalanced"). Accurately estimating the target values of rare instances is important in applications such as forecasting the intensity of rare harmful Solar Energetic Particle (SEP) events. For regression, the MSE loss does not consider the correlation between predicted and actual values. Typical inverse importance functions allow only convex functions. Uniform sampling might yield mini-batches that do not have rare instances. We propose CISIR that incorporates correlation, Monotonically Decreasing Involution (MDI) importance, and stratified sampling. Based on five datasets, our experimental results indicate that CISIR can achieve lower error and higher correlation than some recent methods. Also, adding our correlation component to other recent methods can improve their performance. Lastly, MDI importance can outperform other importance functions. Our code can be found in https://github.com/Machine-Earning/CISIR.
- Abstract(参考訳): 本研究では,1000(高不均衡)以上の不均衡比を有する表型データを用いた不均衡回帰について検討する。
稀有な太陽エネルギー粒子(SEP)事象の強度を予測するなどの応用において、稀有な事例の目標値の正確な推定が重要である。
回帰では、MSE損失は予測値と実際の値の相関を考慮しない。
典型的な逆重要関数は凸関数のみを許す。
一様サンプリングは、まれなインスタンスを持たないミニバッチをもたらす可能性がある。
本稿では,相関,モノトニック・インボリューション(MDI)の重要性,階層化サンプリングを取り入れたCISIRを提案する。
実験結果から, CISIRは近年の手法に比べて誤差が低く, 相関性も高いことが示唆された。
また、最近のメソッドに相関コンポーネントを追加することで、パフォーマンスが向上します。
最後に、MDIの重要性は他の重要な機能よりも優れている。
私たちのコードはhttps://github.com/Machine-Earning/CISIRで確認できます。
関連論文リスト
- Spurious Correlations in High Dimensional Regression: The Roles of Regularization, Simplicity Bias and Over-Parameterization [19.261178173399784]
学習モデルは、トレーニングデータ内の非予測的特徴と関連するラベルとの間に急激な相関関係があることが示されている。
我々は、データ共分散とリッジ正規化の強さの点から、線形回帰によって学習されたスプリアス相関の量$C$を定量化する。
論文 参考訳(メタデータ) (2025-02-03T13:38:42Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - Distributionally Robust Multi-Output Regression Ranking [3.9318191265352196]
DRMRR(Distributedally Robust Multi-output Regression Ranking)と呼ばれるリストワイズ学習ランクモデルを導入する。
DRMRRは分散ロバスト最適化フレームワークを使用して、経験的データ分布の近傍で最も有害な分布の下でのマルチ出力損失関数を最小化する。
本実験は,医用文書検索と薬物反応予測の2つの実世界の応用について行った。
論文 参考訳(メタデータ) (2021-09-27T05:19:27Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。