論文の概要: Improving predictions by nonlinear regression models from outlying input
data
- arxiv url: http://arxiv.org/abs/2003.07926v1
- Date: Tue, 17 Mar 2020 20:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 20:46:28.472675
- Title: Improving predictions by nonlinear regression models from outlying input
data
- Title(参考訳): 非線形回帰モデルによる入力データからの予測の改善
- Authors: William W. Hsieh
- Abstract要約: 機械学習/統計手法を環境科学に適用する場合、非線形回帰(NLR)モデルはリニア回帰(LR)よりもわずかに良く、時には悪いだけである。
連続的非有界変数は環境科学において広く使われており、新しい入力データがトレーニング領域のはるかに外にあることは珍しくない。
異常値については、信頼できないNLR予測をNLR$_mathrmor$またはLR予測に置き換えるか、あるいは"信頼できない予測"警告を発行することで置き換えることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When applying machine learning/statistical methods to the environmental
sciences, nonlinear regression (NLR) models often perform only slightly better
and occasionally worse than linear regression (LR). The proposed reason for
this conundrum is that NLR models can give predictions much worse than LR when
given input data which lie outside the domain used in model training.
Continuous unbounded variables are widely used in environmental sciences,
whence not uncommon for new input data to lie far outside the training domain.
For six environmental datasets, inputs in the test data were classified as
"outliers" and "non-outliers" based on the Mahalanobis distance from the
training input data. The prediction scores (mean absolute error, Spearman
correlation) showed NLR to outperform LR for the non-outliers, but often
underperform LR for the outliers. An approach based on Occam's Razor (OR) was
proposed, where linear extrapolation was used instead of nonlinear
extrapolation for the outliers. The linear extrapolation to the outlier domain
was based on the NLR model within the non-outlier domain. This
NLR$_{\mathrm{OR}}$ approach reduced occurrences of very poor extrapolation by
NLR, and it tended to outperform NLR and LR for the outliers. In conclusion,
input test data should be screened for outliers. For outliers, the unreliable
NLR predictions can be replaced by NLR$_{\mathrm{OR}}$ or LR predictions, or by
issuing a "no reliable prediction" warning.
- Abstract(参考訳): 機械学習/統計手法を環境科学に適用する場合、非線形回帰(NLR)モデルはリニア回帰(LR)よりもわずかに良く、時には悪いだけである。
この欠点の理由は、NLRモデルがモデルトレーニングで使用される領域外にある入力データを与えられた場合、LRよりもはるかに悪い予測をすることができるためである。
連続的非有界変数は環境科学において広く使われており、新しい入力データがトレーニング領域のはるかに外にあることは珍しくない。
6つの環境データセットにおいて,実験データ中の入力は,トレーニング入力データからのマハラノビス距離に基づいて,"outliers"と"non-outliers"に分類された。
予測スコア(平均絶対誤差、スピアマン相関)は、非外乱ではLRを上回り、しばしば外乱ではLRを下回ることを示した。
Occam's Razor (OR) に基づく手法が提案され、線形外挿法が外挿器の非線形外挿法の代わりに用いられた。
外接領域への線形外挿は非外接領域内のNLRモデルに基づいていた。
この NLR$_{\mathrm{OR}}$ アプローチは、NLR による非常に低い外挿の発生を減らし、外れ値に対して NLR と LR を上回る傾向にあった。
結論として、入力テストデータは異常値として表示されるべきである。
外れ値については、信頼できないNLR予測をNLR$_{\mathrm{OR}}$またはLR予測に置き換えるか、あるいは"信頼できない予測"警告を発行することで置き換えることができる。
関連論文リスト
- Robust Capped lp-Norm Support Vector Ordinal Regression [85.84718111830752]
正規回帰は、ラベルが固有の順序を示す特殊な教師付き問題である。
卓越した順序回帰モデルとしてのベクトル順序回帰は、多くの順序回帰タスクで広く使われている。
我々は,新たなモデルであるCapped $ell_p$-Norm Support Vector Ordinal Regression (CSVOR)を導入する。
論文 参考訳(メタデータ) (2024-04-25T13:56:05Z) - Uncertainty Voting Ensemble for Imbalanced Deep Regression [20.176217123752465]
本稿では,不均衡なデータから学習するUVOTEを紹介する。
従来の回帰損失を負の対数類似度に置き換え、サンプルワイドのアレタリックな不確実性も予測する。
UVOTEは先行技術より一貫して優れており、同時に精度のよい不確実性評価が得られている。
論文 参考訳(メタデータ) (2023-05-24T14:12:21Z) - Equivariance and Invariance Inductive Bias for Learning from
Insufficient Data [65.42329520528223]
不十分なデータがモデルを、通常テストとは異なる限られたトレーニング環境にバイアスしやすくする理由が示されています。
従来のIRMにおける環境アノテーションの欠如を効果的に解決するクラスワイド不変リスク最小化(IRM)を提案する。
論文 参考訳(メタデータ) (2022-07-25T15:26:19Z) - Beyond Ridge Regression for Distribution-Free Data [8.523307608620094]
正規化最大可能性 (pNML) は、データ上に分布の仮定が作成されない分布自由設定に対する min-max 後悔解として提案されている。
仮説クラスに事前のような関数を適用することで、その有効サイズが減少する。
尾根回帰経験的リスク最小化器(Ridge ERM)によるLpNML予測と関連するpNML
我々のLpNMLは、PMLB集合のリッジERM誤差を最大20%低減し、
論文 参考訳(メタデータ) (2022-06-17T13:16:46Z) - On Learning Mixture of Linear Regressions in the Non-Realizable Setting [44.307245411703704]
線形回帰(MLR)の混合はラベルを予測せずに値のリストを予測できることを示す。
本稿では,一般的な最小化 (AM) アルゴリズムのバージョンが,実現可能なモデルが仮定されていない場合でも,データセットに最も適した線を見つけることを示す。
論文 参考訳(メタデータ) (2022-05-26T05:34:57Z) - On the Implicit Bias of Gradient Descent for Temporal Extrapolation [32.93066466540839]
リカレントニューラルネットワーク(RNN)を使用する一般的なプラクティスは、トレーニングで見られるものよりも長いシーケンスにモデルを適用することだ。
無限のトレーニングデータであっても、完全に補間するRNNモデルが存在することを示す。
次に、勾配降下をトレーニングに用いた場合、学習は完全な外挿に収束することを示す。
論文 参考訳(メタデータ) (2022-02-09T06:28:37Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Improving Nonparametric Classification via Local Radial Regression with
an Application to Stock Prediction [16.000748943982494]
よく知られた非パラメトリックカーネルのスムーズ化と$k$-nearest(k$-NN)推定器は一貫性があるが、特にボールの大きな半径に対して偏りがある。
本稿では,LPoRとMS-$k$-NNの利点を組み合わせた局所ラジアル回帰(LRR)とそのロジスティック回帰(LRLR)を提案する。
LPoRとMS-$k$NNよりLRLRの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-12-28T00:32:02Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Understanding and Mitigating the Tradeoff Between Robustness and
Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。
拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文 参考訳(メタデータ) (2020-02-25T08:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。