論文の概要: PCA of probability measures: Sparse and Dense sampling regimes
- arxiv url: http://arxiv.org/abs/2602.02190v1
- Date: Mon, 02 Feb 2026 14:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.232612
- Title: PCA of probability measures: Sparse and Dense sampling regimes
- Title(参考訳): 確率測定のPCA:スパースとデンスサンプリング体制
- Authors: Gachon Erell, Jérémie Bigot, Elsa Cazelles,
- Abstract要約: 我々はPCAを$n$の確率測度がそれぞれ$m$のサンプルによって観測される二重体制で研究する。
経験的共分散作用素とPCA過剰リスクに対して$n-1/2 + m-$という形の収束率を導出する。
実験的な共分散誤差に対して, 密度レジメレートが極小であることを示す。
- 参考スコア(独自算出の注目度): 0.509780930114934
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A common approach to perform PCA on probability measures is to embed them into a Hilbert space where standard functional PCA techniques apply. While convergence rates for estimating the embedding of a single measure from $m$ samples are well understood, the literature has not addressed the setting involving multiple measures. In this paper, we study PCA in a double asymptotic regime where $n$ probability measures are observed, each through $m$ samples. We derive convergence rates of the form $n^{-1/2} + m^{-α}$ for the empirical covariance operator and the PCA excess risk, where $α>0$ depends on the chosen embedding. This characterizes the relationship between the number $n$ of measures and the number $m$ of samples per measure, revealing a sparse (small $m$) to dense (large $m$) transition in the convergence behavior. Moreover, we prove that the dense-regime rate is minimax optimal for the empirical covariance error. Our numerical experiments validate these theoretical rates and demonstrate that appropriate subsampling preserves PCA accuracy while reducing computational cost.
- Abstract(参考訳): 確率測度でPCAを実行するための一般的なアプローチは、標準的な機能的PCA技法が適用されるヒルベルト空間にそれらを埋め込むことである。
1つの測度を$m$サンプルから推定するための収束速度はよく理解されているが、文献は複数の測度を含む設定に対処していない。
本稿では,PCAを2重漸近系で研究し,それぞれ$m$サンプルを用いて,$n$の確率測度を観測する。
我々は、経験的共分散作用素とPCA過剰リスクに対して、$n^{-1/2} + m^{-α}$という形の収束率を導出する。
これは測度数$n$と測度毎のサンプル数$m$の関係を特徴づけ、収束挙動におけるスパース(小さい$m$)から密度(大きい$m$)への遷移を明らかにする。
さらに, 実験的共分散誤差に対して, 密度レジメレートが極小であることを示す。
数値実験により,PCAの精度を抑えつつ,計算コストの低減を図った。
関連論文リスト
- Gaussian credible intervals in Bayesian nonparametric estimation of the unseen [7.54430260415628]
未確認種問題は、異なる種に属する個体の集団から、おそらく無限のサンプルを、ngeq1$と仮定する。
我々は,任意の$ngeq1$に対して,K_n,m$に対して大きな$m$信頼区間を導出する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T12:48:05Z) - Beyond likelihood ratio bias: Nested multi-time-scale stochastic approximation for likelihood-free parameter estimation [49.78792404811239]
確率分析形式が不明なシミュレーションベースモデルにおける推論について検討する。
我々は、スコアを同時に追跡し、パラメータ更新を駆動する比率のないネスト型マルチタイムスケール近似(SA)手法を用いる。
我々のアルゴリズムは、オリジナルのバイアス$Obig(sqrtfrac1Nbig)$を排除し、収束率を$Obig(beta_k+sqrtfracalpha_kNbig)$から加速できることを示す。
論文 参考訳(メタデータ) (2024-11-20T02:46:15Z) - Precise Asymptotics of Bagging Regularized M-estimators [20.077783679095443]
我々は,アンサンブル推定器の正方形予測リスクを,正規化M値推定器のサブタグ化(サブサンプルブートストラップ集約)により特徴付ける。
我々の分析の鍵は、重なり合うサブサンプル上の推定値と残差との相関関係の結合挙動に関する新しい結果である。
サブサンプルサイズ,アンサンブルサイズ,正規化の併用最適化は,全データに対してのみ,正規化器の最適化を著しく上回る。
論文 参考訳(メタデータ) (2024-09-23T17:48:28Z) - Sparse PCA with Oracle Property [115.72363972222622]
新規な正規化を伴うスパースPCAの半定緩和に基づく推定器群を提案する。
我々は、家族内の別の推定器が、スパースPCAの標準半定緩和よりも、より急激な収束率を達成することを証明した。
論文 参考訳(メタデータ) (2023-12-28T02:52:54Z) - Empirical Bayes Covariance Decomposition, and a solution to the Multiple
Tuning Problem in Sparse PCA [2.5382095320488673]
スパース主成分分析(PCA)は,PCAの解釈可能性と信頼性を両立させる手法として提案されている。
経験ベイズ法による「複数チューニング問題」の解法を提案する。
論文 参考訳(メタデータ) (2023-12-06T04:00:42Z) - Estimation of entropy-regularized optimal transport maps between
non-compactly supported measures [15.857723276537248]
本稿では,ガウシアン以下の音源と目標測度の間の2乗ユークリッドコストでエントロピー規則化された最適輸送マップを推定する問題に対処する。
論文 参考訳(メタデータ) (2023-11-20T17:18:21Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文 参考訳(メタデータ) (2020-12-31T18:24:41Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z) - Weighted Empirical Risk Minimization: Sample Selection Bias Correction
based on Importance Sampling [2.599882743586164]
トレーニング観測値の分布$P'$が、最小化を目指すリスクに関わる分布$Z'_i$と異なる場合、統計的学習問題を考察する。
実際に頻繁に遭遇する様々な状況において、単純な形式を採り、$Phi(z)$から直接推定できることが示される。
次に、上記のアプローチのキャパシティ一般化が、その結果の$Phi(Z'_i)$'sを重み付き経験的リスクにプラグインするときに保持されることを示す。
論文 参考訳(メタデータ) (2020-02-12T18:42:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。