論文の概要: Distributed Estimation for Principal Component Analysis: an Enlarged
Eigenspace Analysis
- arxiv url: http://arxiv.org/abs/2004.02336v3
- Date: Wed, 3 Feb 2021 02:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:27:43.181786
- Title: Distributed Estimation for Principal Component Analysis: an Enlarged
Eigenspace Analysis
- Title(参考訳): 主成分分析のための分散推定:拡張固有空間解析
- Authors: Xi Chen and Jason D. Lee and He Li and Yun Yang
- Abstract要約: 本稿では,基本統計的機械学習問題,主成分分析(PCA)の分散推定について検討する。
本稿では,分散データのためのトップ$L$-dim固有空間を構築するための新しいマルチラウンドアルゴリズムを提案する。
我々のアルゴリズムは、シフト・アンド・インバート・プレコンディショニングと凸最適化を利用する。
- 参考スコア(独自算出の注目度): 45.829683377074524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing size of modern data sets brings many challenges to the existing
statistical estimation approaches, which calls for new distributed
methodologies. This paper studies distributed estimation for a fundamental
statistical machine learning problem, principal component analysis (PCA).
Despite the massive literature on top eigenvector estimation, much less is
presented for the top-$L$-dim ($L>1$) eigenspace estimation, especially in a
distributed manner. We propose a novel multi-round algorithm for constructing
top-$L$-dim eigenspace for distributed data. Our algorithm takes advantage of
shift-and-invert preconditioning and convex optimization. Our estimator is
communication-efficient and achieves a fast convergence rate. In contrast to
the existing divide-and-conquer algorithm, our approach has no restriction on
the number of machines. Theoretically, the traditional Davis-Kahan theorem
requires the explicit eigengap assumption to estimate the top-$L$-dim
eigenspace. To abandon this eigengap assumption, we consider a new route in our
analysis: instead of exactly identifying the top-$L$-dim eigenspace, we show
that our estimator is able to cover the targeted top-$L$-dim population
eigenspace. Our distributed algorithm can be applied to a wide range of
statistical problems based on PCA, such as principal component regression and
single index model. Finally, We provide simulation studies to demonstrate the
performance of the proposed distributed estimator.
- Abstract(参考訳): 現代のデータセットの増大は、新しい分散方法論を要求する既存の統計的推定アプローチに多くの課題をもたらす。
本稿では,基本的な統計的機械学習問題である主成分分析(PCA)の分散推定について検討する。
トップ固有ベクトル推定に関する膨大な文献にもかかわらず、特に分散的な方法で、トップ$L$-dim(L>1$)固有空間推定について、はるかに少ない値が提示される。
分散データに対するトップ$l$-dim固有空間を構築するための新しいマルチラウンドアルゴリズムを提案する。
本アルゴリズムはシフト・インバートプリコンディショニングと凸最適化を利用する。
我々の推定器は通信効率が高く、高速収束率を達成する。
既存の分割・分割アルゴリズムとは対照的に,本手法では機械数に制限はない。
理論的には、従来のデービス=カハンの定理は、最大で$l$-dimの固有空間を推定するために明示的な固有ギャップ仮定を必要とする。
この固有ギャップの仮定を放棄するために、我々は分析において新しい経路を考える:トップ$L$dim固有空間を正確に特定する代わりに、我々の推定器がターゲットの上位$L$dim集団固有空間をカバーできることを示す。
分散アルゴリズムは,主成分回帰や単一指標モデルなど,PCAに基づく幅広い統計問題に適用できる。
最後に,提案した分散推定器の性能を示すシミュレーション実験を行った。
関連論文リスト
- Near-Optimal differentially private low-rank trace regression with guaranteed private initialization [0.0]
RRd_1times d$におけるランク-r$行列$Mの差分プライベート(DP)推定をトレース回帰モデルの下で検討する。
我々はまた、リーマン最適化(DP-RGrad)に基づいて$M$を推定する微分プライベートアルゴリズムを提案する。
DP-RGradで与えられる推定器は、微分プライバシーというより弱い概念において最適収束率に達することが示されている。
論文 参考訳(メタデータ) (2024-03-24T03:57:21Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Sparse PCA with Oracle Property [115.72363972222622]
新規な正規化を伴うスパースPCAの半定緩和に基づく推定器群を提案する。
我々は、家族内の別の推定器が、スパースPCAの標準半定緩和よりも、より急激な収束率を達成することを証明した。
論文 参考訳(メタデータ) (2023-12-28T02:52:54Z) - Distributed Learning of Mixtures of Experts [0.0]
私たちは、自然に分散されたデータセットや、計算を分散する潜在的に大きなデータセットを扱います。
本研究では,データ分散サブセットに並列に適合する局所的推定器から還元推定器を構築するために,専門家(MoE)モデルとアグリゲーション戦略を併用した分散学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:26:13Z) - Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - Subspace clustering in high-dimensions: Phase transitions \&
Statistical-to-Computational gap [24.073221004661427]
部分空間クラスタリングを研究するための単純なモデルは、高次元の$k$-ガウス混合モデルである。
広帯域な高次元状態における統計的に最適な再構成誤差を正確に評価する。
論文 参考訳(メタデータ) (2022-05-26T17:47:35Z) - Learning Minimax Estimators via Online Learning [55.92459567732491]
確率分布のパラメータを推定するミニマックス推定器を設計する際の問題点を考察する。
混合ケースナッシュ平衡を求めるアルゴリズムを構築した。
論文 参考訳(メタデータ) (2020-06-19T22:49:42Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。