論文の概要: Heavy-tailed Contamination is Easier than Adversarial Contamination
- arxiv url: http://arxiv.org/abs/2411.15306v1
- Date: Fri, 22 Nov 2024 19:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:04.891163
- Title: Heavy-tailed Contamination is Easier than Adversarial Contamination
- Title(参考訳): 重い尾の汚染は敵の汚染よりも容易である
- Authors: Yeshwanth Cherapanamjeri, Daniel Lee,
- Abstract要約: ハマー (Huber, 1960) にさかのぼる統計学と計算機科学のコミュニティにおける研究の成果は、統計学的および計算学的に効率的なアウトリア・ローバスト推定器に繋がった。
2つの特定の外れ値モデル、すなわち対向モデルと重尾モデルが注目されている。
- 参考スコア(独自算出の注目度): 8.607294463464523
- License:
- Abstract: A large body of work in the statistics and computer science communities dating back to Huber (Huber, 1960) has led to statistically and computationally efficient outlier-robust estimators. Two particular outlier models have received significant attention: the adversarial and heavy-tailed models. While the former models outliers as the result of a malicious adversary manipulating the data, the latter relaxes distributional assumptions on the data allowing outliers to naturally occur as part of the data generating process. In the first setting, the goal is to develop estimators robust to the largest fraction of outliers while in the second, one seeks estimators to combat the loss of statistical efficiency, where the dependence on the failure probability is paramount. Despite these distinct motivations, the algorithmic approaches to both these settings have converged, prompting questions on the relationship between the models. In this paper, we investigate and provide a principled explanation for this phenomenon. First, we prove that any adversarially robust estimator is also resilient to heavy-tailed outliers for any statistical estimation problem with i.i.d data. As a corollary, optimal adversarially robust estimators for mean estimation, linear regression, and covariance estimation are also optimal heavy-tailed estimators. Conversely, for arguably the simplest high-dimensional estimation task of mean estimation, we construct heavy-tailed estimators whose application to the adversarial setting requires any black-box reduction to remove almost all the outliers in the data. Taken together, our results imply that heavy-tailed estimation is likely easier than adversarially robust estimation opening the door to novel algorithmic approaches for the heavy-tailed setting. Additionally, confidence intervals obtained for adversarially robust estimation also hold with high-probability.
- Abstract(参考訳): ハマー (Huber, 1960) にさかのぼる統計学と計算機科学のコミュニティにおける多くの研究が、統計学的および計算学的に効率的なアウトリア・ローバスト推定器に繋がった。
2つの特定の外れ値モデル、すなわち対向モデルと重尾モデルが注目されている。
前者はデータを操作している悪意のある敵の結果としてアウトレイアをモデル化するが、後者はデータ生成プロセスの一部として、アウトレイアが自然に発生するようにデータ上の分布仮定を緩和する。
第1設定では、最大の外れ値に頑健な推定器を開発すること、第2設定では、故障確率への依存が最重要である統計的効率の損失に対処する推定器を求める。
これらの異なるモチベーションにもかかわらず、両方の設定に対するアルゴリズム的なアプローチは収束し、モデル間の関係に関する疑問が提起された。
本稿では,この現象の原理的説明と考察を行う。
まず、逆向きに頑健な推定器は、i.dデータに対する統計的推定問題に対して重い尾の外れ値に対して弾力性があることを証明する。
平均推定,線形回帰,共分散推定のための最適逆向き頑健な推定器も最適重み付き推定器である。
逆に、平均推定の最も単純な高次元推定タスクに対しては、データ内のほぼすべての外れ値を取り除くためにブラックボックスの削減を必要とする重み付き推定器を構築する。
その結果,重み付き推定は,重み付き設定に対する新しいアルゴリズムアプローチへの扉を開くために,逆向きに頑健な推定よりも容易である可能性が示唆された。
さらに、逆向きに頑健な推定のために得られた信頼区間も高い確率で保持される。
関連論文リスト
- Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Maximum Likelihood Uncertainty Estimation: Robustness to Outliers [3.673994921516517]
トレーニングデータのアウトレーヤやノイズラベルは、劣化したパフォーマンスと不確実性の誤った推定をもたらす。
そこで本研究では,オフレイアに対するロバスト性を改善するために,重み付き分布を用いることを提案する。
論文 参考訳(メタデータ) (2022-02-03T10:41:34Z) - Semi-Supervised Quantile Estimation: Robust and Efficient Inference in High Dimensional Settings [0.5735035463793009]
2つの利用可能なデータセットを特徴とする半教師付き環境での量子推定を考察する。
本稿では,2つのデータセットに基づいて,応答量子化(s)に対する半教師付き推定器群を提案する。
論文 参考訳(メタデータ) (2022-01-25T10:02:23Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Non-asymptotic analysis and inference for an outlyingness induced
winsorized mean [0.0]
本稿では,平均の下位ゲージ推定器のロバスト性について検討する。
いずれも、データ中の25%以上の汚染に耐えられないことが明らかになった。
また、最高の堅牢性を有するアウトライン性誘起Winsorized平均も導入しています。
論文 参考訳(メタデータ) (2021-05-05T21:35:24Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Learning from Similarity-Confidence Data [94.94650350944377]
類似度信頼性(Sconf)データから学習する新しい弱監督学習問題について検討する。
本研究では,Sconfデータのみから計算可能な分類リスクの非バイアス推定器を提案し,推定誤差境界が最適収束率を達成することを示す。
論文 参考訳(メタデータ) (2021-02-13T07:31:16Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。