論文の概要: High-Dimensional Robust Mean Estimation with Untrusted Batches
- arxiv url: http://arxiv.org/abs/2602.20698v1
- Date: Tue, 24 Feb 2026 08:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.683988
- Title: High-Dimensional Robust Mean Estimation with Untrusted Batches
- Title(参考訳): 信頼できないバッチを用いた高次元ロバスト平均推定
- Authors: Maryam Aliakbarpour, Vladimir Braverman, Yuhan Liu, Junze Yin,
- Abstract要約: 本研究では,N$ユーザによるデータのコントリビューションを行う協調環境での高次元平均推定について検討した。
例えば、$varepsilon$-fraction of users is completely adversarial, and the more good' users provide data from distributions that related to $P$ but deviate by a near parameter $$.
我々のアルゴリズムは、最小最大誤差率$O(sqrtvarepsilon/n + sqrtd/nN + sを達成する。
- 参考スコア(独自算出の注目度): 38.14592862692954
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study high-dimensional mean estimation in a collaborative setting where data is contributed by $N$ users in batches of size $n$. In this environment, a learner seeks to recover the mean $μ$ of a true distribution $P$ from a collection of sources that are both statistically heterogeneous and potentially malicious. We formalize this challenge through a double corruption landscape: an $\varepsilon$-fraction of users are entirely adversarial, while the remaining ``good'' users provide data from distributions that are related to $P$, but deviate by a proximity parameter $α$. Unlike existing work on the untrusted batch model, which typically measures this deviation via total variation distance in discrete settings, we address the continuous, high-dimensional regime under two natural variants for deviation: (1) good batches are drawn from distributions with a mean-shift of $\sqrtα$, or (2) an $α$-fraction of samples within each good batch are adversarially corrupted. In particular, the second model presents significant new challenges: in high dimensions, unlike discrete settings, even a small fraction of sample-level corruption can shift empirical means and covariances arbitrarily. We provide two Sum-of-Squares (SoS) based algorithms to navigate this tiered corruption. Our algorithms achieve the minimax-optimal error rate $O(\sqrt{\varepsilon/n} + \sqrt{d/nN} + \sqrtα)$, demonstrating that while heterogeneity $α$ represents an inherent statistical difficulty, the influence of adversarial users is suppressed by a factor of $1/\sqrt{n}$ due to the internal averaging afforded by the batch structure.
- Abstract(参考訳): 本研究では,N$ユーザによるデータのコントリビューションを行う協調環境での高次元平均推定について検討した。
この環境では、学習者は統計的に異質で潜在的に悪質な情報源の集合から真分布の平均$μ$を回収しようと試みる。
ユーザの$\varepsilon$-fractionは完全に敵対的であり、残りの‘good’ユーザは$P$に関連するディストリビューションのデータを提供するが、近接パラメータ$α$によって区切られる。
離散的な設定において、この偏差を全変動距離で測定する信頼できないバッチモデルに関する既存の研究とは異なり、(1) 良いバッチは平均シフト$\sqrtα$、または(2) 良いバッチ内のサンプルの$α$-fractionは逆向きに破壊される。
特に、第2のモデルは、高次元において、離散的な設定とは異なり、少数のサンプルレベルの汚職でさえ、経験的手段と共分散を任意にシフトすることができる。
我々は、この階層化された汚職をナビゲートするために、2つの Sum-of-Squares (SoS) ベースのアルゴリズムを提供する。
我々のアルゴリズムは、最小最大誤差率$O(\sqrt{\varepsilon/n} + \sqrt{d/nN} + \sqrtα)$を達成し、不均一性$α$は固有の統計的難しさを表すが、バッチ構造によって得られる内部平均値により、相手ユーザの影響力が1/\sqrt{n}$に抑制されることを示す。
関連論文リスト
- Optimal Best Arm Identification under Differential Privacy [8.321992395325912]
BAI(Best Arm Identification)アルゴリズムは、適応的な臨床試験やユーザリサーチなど、データに敏感なアプリケーションにデプロイされる。
本研究では,ベルヌーイ分布に対するグローバル微分プライバシー(DP)の下での固定信頼度BAIの問題について検討する。
提案アルゴリズムは,既存の$delta$correctおよび$epsilon$-global DP BAIアルゴリズムより,$epsilon$の異なる値に対して優れている。
論文 参考訳(メタデータ) (2025-10-20T09:46:09Z) - Efficient Multivariate Robust Mean Estimation Under Mean-Shift Contamination [35.67742880001828]
平均シフト汚染を用いた高次元ロバスト平均推定のための計算効率のよい最初のアルゴリズムを提案する。
提案アルゴリズムは, ほぼ最適サンプルの複雑性を持ち, サンプル・ポリノミカル時間で動作し, ターゲット平均を任意の精度で近似する。
論文 参考訳(メタデータ) (2025-02-20T17:53:13Z) - Entangled Mean Estimation in High-Dimensions [36.97113089188035]
信号のサブセットモデルにおける高次元エンタングルド平均推定の課題について検討する。
最適誤差(polylogarithmic factor)は$f(alpha,N) + sqrtD/(alpha N)$であり、$f(alpha,N)$は1次元問題の誤差であり、第二項は準ガウス誤差率である。
論文 参考訳(メタデータ) (2025-01-09T18:31:35Z) - Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond [89.72693227960274]
本稿では,グループ分散ロバスト最適化 (GDRO) を,$m$以上の異なる分布をうまく処理するモデルを学習する目的で検討する。
各ラウンドのサンプル数を$m$から1に抑えるため、GDROを2人でプレイするゲームとして、一方のプレイヤーが実行し、他方のプレイヤーが非公開のマルチアームバンディットのオンラインアルゴリズムを実行する。
第2のシナリオでは、最大リスクではなく、平均的最上位k$リスクを最適化し、分散の影響を軽減することを提案する。
論文 参考訳(メタデータ) (2023-02-18T09:24:15Z) - Linear Contextual Bandits with Adversarial Corruptions [91.38793800392108]
本稿では,敵対的腐敗の存在下での線形文脈的包帯問題について検討する。
逆汚染レベルに適応する分散認識アルゴリズムをC$で提案する。
論文 参考訳(メタデータ) (2021-10-25T02:53:24Z) - Covariance-Aware Private Mean Estimation Without Private Covariance Estimation [10.036088581191592]
2つのサンプル係数差分プライベート平均推定器を$d$-dimensional(sub)Gaussian分布に対して提案する。
我々の推定子は、$| tildemu - mu |_Sigma leq alpha$, where $| cdot |_Sigma$がマハラノビス距離であるような$tildemu$を出力します。
論文 参考訳(メタデータ) (2021-06-24T21:40:07Z) - The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文 参考訳(メタデータ) (2020-12-31T18:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。