論文の概要: Sample Complexity Bounds for Robust Mean Estimation with Mean-Shift Contamination
- arxiv url: http://arxiv.org/abs/2602.22130v1
- Date: Wed, 25 Feb 2026 17:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.928492
- Title: Sample Complexity Bounds for Robust Mean Estimation with Mean-Shift Contamination
- Title(参考訳): 平均シフト汚染を用いたロバスト平均推定のためのサンプル複雑度境界
- Authors: Ilias Diakonikolas, Giannis Iakovidis, Daniel M. Kane, Sihan Liu,
- Abstract要約: 平均シフト汚染の有無における平均推定の基本的な課題について検討する。
対象平均を任意の精度で推定する,サンプル効率のアルゴリズムが存在することを示す。
- 参考スコア(独自算出の注目度): 40.15176310729312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the basic task of mean estimation in the presence of mean-shift contamination. In the mean-shift contamination model, an adversary is allowed to replace a small constant fraction of the clean samples by samples drawn from arbitrarily shifted versions of the base distribution. Prior work characterized the sample complexity of this task for the special cases of the Gaussian and Laplace distributions. Specifically, it was shown that consistent estimation is possible in these cases, a property that is provably impossible in Huber's contamination model. An open question posed in earlier work was to determine the sample complexity of mean estimation in the mean-shift contamination model for general base distributions. In this work, we study and essentially resolve this open question. Specifically, we show that, under mild spectral conditions on the characteristic function of the (potentially multivariate) base distribution, there exists a sample-efficient algorithm that estimates the target mean to any desired accuracy. We complement our upper bound with a qualitatively matching sample complexity lower bound. Our techniques make critical use of Fourier analysis, and in particular introduce the notion of a Fourier witness as an essential ingredient of our upper and lower bounds.
- Abstract(参考訳): 平均シフト汚染の有無における平均推定の基本的な課題について検討する。
平均シフト汚染モデルでは、敵は、ベース分布の任意にシフトしたバージョンから引き出されたサンプルにより、クリーンサンプルの小さな定数を置き換えることができる。
以前の研究は、ガウス分布とラプラス分布の特別な場合に対して、このタスクのサンプルの複雑さを特徴付けていた。
具体的には、ハマーの汚染モデルでは確実に不可能な特性である、これらの場合において一貫した推定が可能であることを示した。
初期の研究では, 一般分布の平均シフト汚染モデルにおいて, 平均推定のサンプル複雑さを推定することを目的とした。
本研究では,このオープンな問題を研究・解決する。
具体的には、(潜在的に多変量)基底分布の特性関数に関する軽度スペクトル条件下では、ターゲット平均を任意の精度で推定するサンプリング効率アルゴリズムが存在することを示す。
上界を定性的に一致するサンプル複雑性の下界で補う。
我々の手法はフーリエ分析を批判的に利用し、特に、フーリエ証人の概念を上下境界の重要な要素として導入する。
関連論文リスト
- Fundamental limits for weighted empirical approximations of tilted distributions [3.172282943656995]
基底分布が不明なランダムベクトルの傾き分布からサンプルを生成するタスクを考えるが、そのサンプルは利用可能である。
これは金融や気候科学などの分野や稀な事象シミュレーションに応用できる。
サンプル数と傾きの度合いから,その精度を鋭く評価する。
論文 参考訳(メタデータ) (2025-12-30T04:30:27Z) - From Score Matching to Diffusion: A Fine-Grained Error Analysis in the Gaussian Setting [25.21429354164613]
We show that the Wasserstein sample error can be expressed as a kernel-type norm of the data power spectrum。
We show that the Wasserstein sample error can be expressed as a kernel-type norm of the data power spectrum。
論文 参考訳(メタデータ) (2025-03-14T17:35:00Z) - Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。
その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。
この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文 参考訳(メタデータ) (2024-10-17T16:42:12Z) - Invariant Anomaly Detection under Distribution Shifts: A Causal
Perspective [6.845698872290768]
異常検出(AD、Anomaly Detection)は、異常なサンプルを識別する機械学習タスクである。
分散シフトの制約の下では、トレーニングサンプルとテストサンプルが同じ分布から引き出されるという仮定が崩壊する。
我々は,異常検出モデルのレジリエンスを,異なる種類の分布シフトに高めようとしている。
論文 参考訳(メタデータ) (2023-12-21T23:20:47Z) - Mean-Square Analysis of Discretized It\^o Diffusions for Heavy-tailed
Sampling [17.415391025051434]
重み付きポインカーの不等式に関連する伊藤拡散の自然クラスを離散化することにより、重み付き分布のクラスからのサンプリングの複雑さを分析する。
平均二乗解析に基づいて、ワッサーシュタイン2計量のターゲット分布に近い分布が$epsilon$のサンプルを得るための反復複雑性を確立する。
論文 参考訳(メタデータ) (2023-03-01T15:16:03Z) - Outlier-Robust Sparse Mean Estimation for Heavy-Tailed Distributions [42.6763105645717]
少数の破損したサンプルが与えられた場合、ゴールは確率の高い$mu$を正確に近似する仮説を効率的に計算することである。
本アルゴリズムは, 周辺次元と対数的にスケーリングするサンプルを多数使用して, 最適誤差を実現する。
我々の分析は、ある空間特性を満たす正の半定値に対する(非スペクトル)分解の繊細な設計を含む、独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2022-11-29T16:13:50Z) - Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。
一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文 参考訳(メタデータ) (2022-02-23T06:11:49Z) - Robust Estimation for Nonparametric Families via Generative Adversarial
Networks [92.64483100338724]
我々は,高次元ロバストな統計問題を解くためにGAN(Generative Adversarial Networks)を設計するためのフレームワークを提供する。
我々の研究は、これらをロバスト平均推定、第二モーメント推定、ロバスト線形回帰に拡張する。
技術面では、提案したGAN損失は、スムーズで一般化されたコルモゴロフ-スミルノフ距離と見なすことができる。
論文 参考訳(メタデータ) (2022-02-02T20:11:33Z) - Efficiently Sampling Functions from Gaussian Process Posteriors [76.94808614373609]
高速後部サンプリングのための簡易かつ汎用的なアプローチを提案する。
分離されたサンプルパスがガウス過程の後部を通常のコストのごく一部で正確に表現する方法を実証する。
論文 参考訳(メタデータ) (2020-02-21T14:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。