論文の概要: Asymptotic Characterisation of Robust Empirical Risk Minimisation
Performance in the Presence of Outliers
- arxiv url: http://arxiv.org/abs/2305.18974v2
- Date: Wed, 27 Sep 2023 09:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 19:21:35.765335
- Title: Asymptotic Characterisation of Robust Empirical Risk Minimisation
Performance in the Presence of Outliers
- Title(参考訳): 外乱の有無によるロバストな経験的リスク最小化性能の漸近的評価
- Authors: Matteo Vilucchio, Emanuele Troiani, Vittorio Erba, Florent Krzakala
- Abstract要約: 我々は,次元$d$とデータ点数$n$が固定比$alpha=n/d$で分岐した場合,高次元の線形回帰について検討し,出力率を含むデータモデルについて検討する。
我々は、$ell$-regularized $ell$, $ell_$, Huber損失を用いて、経験的リスク最小化(ERM)のパフォーマンスの正確性を提供する。
- 参考スコア(独自算出の注目度): 18.455890316339595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study robust linear regression in high-dimension, when both the dimension
$d$ and the number of data points $n$ diverge with a fixed ratio $\alpha=n/d$,
and study a data model that includes outliers. We provide exact asymptotics for
the performances of the empirical risk minimisation (ERM) using
$\ell_2$-regularised $\ell_2$, $\ell_1$, and Huber losses, which are the
standard approach to such problems. We focus on two metrics for the
performance: the generalisation error to similar datasets with outliers, and
the estimation error of the original, unpolluted function. Our results are
compared with the information theoretic Bayes-optimal estimation bound. For the
generalization error, we find that optimally-regularised ERM is asymptotically
consistent in the large sample complexity limit if one perform a simple
calibration, and compute the rates of convergence. For the estimation error
however, we show that due to a norm calibration mismatch, the consistency of
the estimator requires an oracle estimate of the optimal norm, or the presence
of a cross-validation set not corrupted by the outliers. We examine in detail
how performance depends on the loss function and on the degree of outlier
corruption in the training set and identify a region of parameters where the
optimal performance of the Huber loss is identical to that of the $\ell_2$
loss, offering insights into the use cases of different loss functions.
- Abstract(参考訳): 次元 $d$ とデータポイント数 $n$ の両方が固定比 $\alpha=n/d$ で分岐する場合、高次元におけるロバストな線形回帰を研究し、外れ値を含むデータモデルを調べる。
このような問題に対する標準的なアプローチである$\ell_2$-regularized $\ell_2$,$\ell_1$,およびHuber損失を用いて、経験的リスク最小化(ERM)の性能の正確な漸近を提供する。
性能の指標として,異常値を持つ類似データセットに対する一般化誤差と,元の未定関数の推定誤差の2つに注目した。
その結果,情報理論ベイズ最適推定値と比較した。
一般化誤差の場合、最適な正規化ermは、単純なキャリブレーションを行い、収束率を計算すると、大きなサンプル複雑性限界において漸近的に一致することが分かる。
しかし, 推定誤差は, 標準校正ミスマッチのため, 推定器の整合性には最適基準のオラクル推定が必要であること, あるいは, 異常値が不完全でないクロスバリデーションセットの存在が示される。
学習セットにおける損失関数と異常破壊の程度にパフォーマンスがどのように依存するかを詳細に検討し,フーバー損失の最適性能が$\ell_2$損失と同一であるパラメータの領域を特定し,異なる損失関数のユースケースに対する洞察を提供する。
関連論文リスト
- On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - The Adaptive $\tau$-Lasso: Robustness and Oracle Properties [14.250233515645782]
本稿では,高次元データセット解析のためのロバストな$tau$-regression推定器の正規化版を紹介する。
得られた推定器はアダプティブ $tau$-Lasso と呼ばれ、外れ値や高平均点に対して堅牢である。
外れ値と高平均点に直面して、適応 $tau$-Lasso と $tau$-Lasso 推定器は、最高のパフォーマンスまたは最も近いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-18T21:34:14Z) - Retire: Robust Expectile Regression in High Dimensions [3.9391041278203978]
ペナル化量子化法と期待回帰法は、高次元データの異方性検出に有用な手段を提供する。
我々は,頑健な期待回帰(退職)を提案し,研究する。
提案手法は半平滑なニュートン座標降下アルゴリズムにより効率よく解けることを示す。
論文 参考訳(メタデータ) (2022-12-11T18:03:12Z) - Off-policy estimation of linear functionals: Non-asymptotic theory for
semi-parametric efficiency [59.48096489854697]
観測データに基づいて線形汎関数を推定する問題は、因果推論と包帯文献の両方において標準的である。
このような手順の平均二乗誤差に対して非漸近上界を証明した。
非漸近的局所ミニマックス下限をマッチングすることにより、有限標本のインスタンス依存最適性を確立する。
論文 参考訳(メタデータ) (2022-09-26T23:50:55Z) - A Huber loss-based super learner with applications to healthcare
expenditures [0.0]
本稿では,2乗誤差損失と絶対損失とを結合した「ロバスト」損失関数であるHuber損失に基づく超学習者を提案する。
提案手法は,ハマーリスクの最適化だけでなく,有限サンプル設定でも直接利用できることを示す。
論文 参考訳(メタデータ) (2022-05-13T19:57:50Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Robust Algorithms for GMM Estimation: A Finite Sample Viewpoint [30.839245814393724]
モーメントの一般化法(GMM)
我々はGMM推定器を開発し、一定の$ell$リカバリ保証を$O(sqrtepsilon)$で許容する。
我々のアルゴリズムと仮定は、機器変数の線形回帰とロジスティック回帰に適用できる。
論文 参考訳(メタデータ) (2021-10-06T21:06:22Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Error bounds in estimating the out-of-sample prediction error using
leave-one-out cross validation in high-dimensions [19.439945058410203]
高次元状態におけるサンプル外リスク推定の問題について検討する。
広範囲にわたる経験的証拠は、アウト・ワン・アウト・クロス・バリデーションの正確さを裏付ける。
この理論の技術的利点の1つは、拡張可能な近似LOに関する最近の文献から得られたいくつかの結果を明確化し、接続することができることである。
論文 参考訳(メタデータ) (2020-03-03T20:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。