論文の概要: Inference in Randomized Least Squares and PCA via Normality of Quadratic Forms
- arxiv url: http://arxiv.org/abs/2404.00912v1
- Date: Mon, 1 Apr 2024 04:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 23:26:11.496795
- Title: Inference in Randomized Least Squares and PCA via Normality of Quadratic Forms
- Title(参考訳): 擬似形式の正規性によるランダム化最小方形とPCAの推論
- Authors: Leda Wang, Zhixiang Zhang, Edgar Dobriban,
- Abstract要約: ランダムなスケッチや投影による統計的推測のための統一手法を開発した。
この手法は固定データセット(すなわちデータ条件)に適用され、ランダム性だけがランダム化アルゴリズムによるものである。
- 参考スコア(独自算出の注目度): 19.616162116973637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Randomized algorithms can be used to speed up the analysis of large datasets. In this paper, we develop a unified methodology for statistical inference via randomized sketching or projections in two of the most fundamental problems in multivariate statistical analysis: least squares and PCA. The methodology applies to fixed datasets -- i.e., is data-conditional -- and the only randomness is due to the randomized algorithm. We propose statistical inference methods for a broad range of sketching distributions, such as the subsampled randomized Hadamard transform (SRHT), Sparse Sign Embeddings (SSE) and CountSketch, sketching matrices with i.i.d. entries, and uniform subsampling. To our knowledge, no comparable methods are available for SSE and for SRHT in PCA. Our novel theoretical approach rests on showing the asymptotic normality of certain quadratic forms. As a contribution of broader interest, we show central limit theorems for quadratic forms of the SRHT, relying on a novel proof via a dyadic expansion that leverages the recursive structure of the Hadamard transform. Numerical experiments using both synthetic and empirical datasets support the efficacy of our methods, and in particular suggest that sketching methods can have better computation-estimation tradeoffs than recently proposed optimal subsampling methods.
- Abstract(参考訳): ランダム化アルゴリズムは、大規模なデータセットの分析を高速化するために使用することができる。
本稿では,多変量統計解析における最も基本的な2つの問題である最小二乗およびPCAにおいて,ランダムなスケッチや投影による統計的推測のための統一手法を開発する。
この手法は固定データセット(すなわちデータ条件)に適用され、ランダム性だけがランダム化アルゴリズムによるものである。
サブサンプリングランダム化アダマール変換(SRHT)、スパースサイン埋め込み(SSE)、カウントスケッチ(CountSketch)など、幅広いスケッチ分布に対する統計的推論手法を提案し、行列をi.d.エントリでスケッチし、一様サブサンプリングする。
我々の知る限り、SSEやPCAのSRHTに匹敵する手法は存在しない。
我々の新しい理論的アプローチは、ある二次形式の漸近正規性を示すことにかかっている。
より広範な関心の寄与として、アダマール変換の帰納的構造を利用するダイアド展開による新しい証明を頼りに、SRHTの二次形式に対する中心極限定理を示す。
合成データセットと経験的データセットの両方を用いた数値実験は,本手法の有効性を裏付けるものであり,特にスケッチ法は,最近提案された最適サブサンプリング法よりも優れた計算-推定トレードオフを有することを示唆している。
関連論文リスト
- Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Near-optimal estimation of smooth transport maps with kernel
sums-of-squares [81.02564078640275]
滑らかな条件下では、2つの分布の間の正方形ワッサーシュタイン距離は、魅力的な統計的誤差上界で効率的に計算できる。
生成的モデリングのような応用への関心の対象は、基礎となる最適輸送写像である。
そこで本研究では,地図上の統計的誤差であるL2$が,既存のミニマックス下限値とほぼ一致し,スムーズな地図推定が可能となる最初のトラクタブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-03T13:45:36Z) - Fast and Robust Online Inference with Stochastic Gradient Descent via
Random Scaling [0.9806910643086042]
本稿では,勾配降下アルゴリズムの平均化法により推定されるパラメータのベクトルに対するオンライン推論法を提案する。
我々のアプローチはオンラインデータで完全に運用されており、機能中心極限定理によって厳格に支えられている。
論文 参考訳(メタデータ) (2021-06-06T15:38:37Z) - Projected Statistical Methods for Distributional Data on the Real Line
with the Wasserstein Metric [0.0]
本研究では,実線上の確率分布のデータセットに関する統計解析を行うための,新規な予測手法を提案する。
特に主成分分析(PCA)と回帰に重点を置いています。
モデルのいくつかの理論的性質が研究され、一貫性が証明される。
論文 参考訳(メタデータ) (2021-01-22T10:24:49Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z) - Bayesian System ID: Optimal management of parameter, model, and
measurement uncertainty [0.0]
システム識別(ID)の確率的定式化の頑健さを,スパース,ノイズ,間接データに対して評価した。
従来手法の目的関数面と比較して,ログ後部は幾何学的特性が向上したことを示す。
論文 参考訳(メタデータ) (2020-03-04T22:48:30Z) - Optimal Randomized First-Order Methods for Least-Squares Problems [56.05635751529922]
このアルゴリズムのクラスは、最小二乗問題に対する最も高速な解法のうち、いくつかのランダム化手法を含んでいる。
我々は2つの古典的埋め込み、すなわちガウス射影とアダマール変換のサブサンプリングに焦点を当てる。
得られたアルゴリズムは条件数に依存しない最小二乗問題の解法として最も複雑である。
論文 参考訳(メタデータ) (2020-02-21T17:45:32Z) - Distributed Averaging Methods for Randomized Second Order Optimization [54.51566432934556]
我々はヘッセン語の形成が計算的に困難であり、通信がボトルネックとなる分散最適化問題を考察する。
我々は、ヘッセンのサンプリングとスケッチを用いたランダム化二階最適化のための非バイアスパラメータ平均化手法を開発した。
また、不均一なコンピューティングシステムのための非バイアス分散最適化フレームワークを導入するために、二階平均化手法のフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-02-16T09:01:18Z) - Statistical Outlier Identification in Multi-robot Visual SLAM using
Expectation Maximization [18.259478519717426]
本稿では、同時局所化およびマッピング(SLAM)におけるマップ間ループ閉包外乱検出のための、新しい分散手法を提案する。
提案アルゴリズムは優れた初期化に頼らず、一度に2つ以上のマップを処理できる。
論文 参考訳(メタデータ) (2020-02-07T06:34:44Z) - Optimal Iterative Sketching with the Subsampled Randomized Hadamard
Transform [64.90148466525754]
最小二乗問題に対する反復スケッチの性能について検討する。
本研究では、Haar行列とランダム化されたHadamard行列の収束速度が同一であることを示し、ランダムなプロジェクションを経時的に改善することを示した。
これらの手法は、ランダム化次元還元を用いた他のアルゴリズムにも適用することができる。
論文 参考訳(メタデータ) (2020-02-03T16:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。