論文の概要: Generalization Bounds in the Presence of Outliers: a Median-of-Means
Study
- arxiv url: http://arxiv.org/abs/2006.05240v2
- Date: Sun, 7 Feb 2021 10:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 13:51:23.504673
- Title: Generalization Bounds in the Presence of Outliers: a Median-of-Means
Study
- Title(参考訳): アウトリーチの有無における一般化境界--中間研究
- Authors: Pierre Laforgue, Guillaume Staerman, Stephan Cl\'emen\c{c}on
- Abstract要約: Median-of-Means (MoM) は平方可積分 r.v.$Z$ の平均$theta$ の推定量である。
ヘビーテールのデータに対する高い信頼性のおかげで、MoMは機械学習に様々な応用を見出した。
新たな作業ラインは、MoMが破損したデータに対処する能力を特徴付け、活用しようとしている。
- 参考スコア(独自算出の注目度): 8.905677748354364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast to the empirical mean, the Median-of-Means (MoM) is an estimator
of the mean $\theta$ of a square integrable r.v. $Z$, around which accurate
nonasymptotic confidence bounds can be built, even when $Z$ does not exhibit a
sub-Gaussian tail behavior. Thanks to the high confidence it achieves on
heavy-tailed data, MoM has found various applications in machine learning,
where it is used to design training procedures that are not sensitive to
atypical observations. More recently, a new line of work is now trying to
characterize and leverage MoM's ability to deal with corrupted data. In this
context, the present work proposes a general study of MoM's concentration
properties under the contamination regime, that provides a clear understanding
of the impact of the outlier proportion and the number of blocks chosen. The
analysis is extended to (multisample) $U$-statistics, i.e. averages over tuples
of observations, that raise additional challenges due to the dependence
induced. Finally, we show that the latter bounds can be used in a
straightforward fashion to derive generalization guarantees for pairwise
learning in a contaminated setting, and propose an algorithm to compute
provably reliable decision functions.
- Abstract(参考訳): 経験的平均とは対照的に、MoM (Median-of-Means) は平方可積分 r.v.$Z$ の平均$\theta$ を推定するものであり、Z$ が準ガウス的尾の振る舞いを示さない場合でも、正確な漸近的信頼境界を構築できる。
重み付けされたデータに対する高い信頼性のおかげで、MoMは機械学習の様々な応用を見つけ、非定型的な観察に敏感でない訓練手順を設計するのに使われている。
最近では、MoMが破損したデータに対処する能力を特徴付け、活用しようと試みている。
本研究は, 汚染体制下でのMoMの濃度特性に関する一般研究を提案し, 流出率と選択したブロック数の影響を明確に把握する。
この分析は (multisample) $U$-statistics、すなわち、観測のタプル平均に拡張され、依存が引き起こされるため、さらなる課題が生じる。
最後に, 後者の境界は, 対学習の一般化保証を導出するために, 直接的に使用できることを示すとともに, 信頼性の高い決定関数を計算するアルゴリズムを提案する。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - On Medians of (Randomized) Pairwise Means [8.497456090408084]
Lugosi & Mendelsonで最近導入されたトーナメント手順は、機械学習における経験的リスク最小化の原則に代わる魅力的な代替手段を提供する。
本稿では,このアプローチを拡張して,他の学習問題に対処する。
論文 参考訳(メタデータ) (2022-11-01T17:18:15Z) - Uniform Concentration Bounds toward a Unified Framework for Robust
Clustering [21.789311405437573]
センターベースのクラスタリングの最近の進歩は、ロイドの有名な$k$-meansアルゴリズムの欠点によって改善され続けている。
様々な手法は、ローカル・ミニマ(英語版)の貧弱さ、異常値に対する感度、ユークリッドの対応に適さないデータに対処しようとする。
本稿では,一般的な相似性尺度に基づく中心クラスタリングのための密結合型ロバストフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-27T03:43:44Z) - Keep it Tighter -- A Story on Analytical Mean Embeddings [0.6445605125467574]
カーネル技術は、データサイエンスにおいて最も人気があり柔軟なアプローチの一つである。
平均埋め込みは、最大平均不一致(MMD)と呼ばれる分岐測度をもたらす。
本稿では,基礎となる分布の1つの平均埋め込みが解析的に利用可能である場合のMDD推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-15T21:29:27Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Improved Estimation of Concentration Under $\ell_p$-Norm Distance
Metrics Using Half Spaces [14.947511752748005]
測定の集中は、敵の脆弱性の根本的な原因であると議論されている。
本稿では,実験データセットの濃度を$ell_p$-norm距離で推定する手法を提案する。
提案アルゴリズムはMahloujifar et alよりも効率的です。
合成データセットと画像ベンチマークに関する我々の実験は、より厳密な内在的堅牢性境界を見つけることができることを示した。
論文 参考訳(メタデータ) (2021-03-24T01:16:28Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Robust Principal Component Analysis: A Median of Means Approach [17.446104539598895]
主成分分析(main Component Analysis)は、データビジュアライゼーション、デノイング、次元削減のためのツールである。
最近の教師付き学習手法は、外見的な観察を扱う上で大きな成功を収めている。
本稿では,MoM原理に基づくPCA手法を提案する。
論文 参考訳(メタデータ) (2021-02-05T19:59:05Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - $\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a
Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。
本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文 参考訳(メタデータ) (2020-06-13T06:09:27Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。