論文の概要: Kernel Density Estimators in Large Dimensions
- arxiv url: http://arxiv.org/abs/2408.05807v2
- Date: Fri, 16 Aug 2024 13:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 17:39:31.747719
- Title: Kernel Density Estimators in Large Dimensions
- Title(参考訳): 大次元カーネル密度推定器
- Authors: Giulio Biroli, Marc Mézard,
- Abstract要約: 我々は、帯域幅$h$に応じて、密度$hat rho_hmathcal D(x)=frac1n hdsum_i=1n Kleft(fracx-y_ihright)$をカーネルベースで推定する。
本稿では,Kullback-Leibler分散に基づく帯域幅の最適しきい値が,本論文で同定された新しい統計体系に含まれることを示す。
- 参考スコア(独自算出の注目度): 9.299356601085586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies Kernel density estimation for a high-dimensional distribution $\rho(x)$. Traditional approaches have focused on the limit of large number of data points $n$ and fixed dimension $d$. We analyze instead the regime where both the number $n$ of data points $y_i$ and their dimensionality $d$ grow with a fixed ratio $\alpha=(\log n)/d$. Our study reveals three distinct statistical regimes for the kernel-based estimate of the density $\hat \rho_h^{\mathcal {D}}(x)=\frac{1}{n h^d}\sum_{i=1}^n K\left(\frac{x-y_i}{h}\right)$, depending on the bandwidth $h$: a classical regime for large bandwidth where the Central Limit Theorem (CLT) holds, which is akin to the one found in traditional approaches. Below a certain value of the bandwidth, $h_{CLT}(\alpha)$, we find that the CLT breaks down. The statistics of $\hat \rho_h^{\mathcal {D}}(x)$ for a fixed $x$ drawn from $\rho(x)$ is given by a heavy-tailed distribution (an alpha-stable distribution). In particular below a value $h_G(\alpha)$, we find that $\hat \rho_h^{\mathcal {D}}(x)$ is governed by extreme value statistics: only a few points in the database matter and give the dominant contribution to the density estimator. We provide a detailed analysis for high-dimensional multivariate Gaussian data. We show that the optimal bandwidth threshold based on Kullback-Leibler divergence lies in the new statistical regime identified in this paper. Our findings reveal limitations of classical approaches, show the relevance of these new statistical regimes, and offer new insights for Kernel density estimation in high-dimensional settings.
- Abstract(参考訳): 本稿では,高次元分布$\rho(x)$に対するカーネル密度推定について検討する。
従来のアプローチでは、大量のデータポイント$n$と固定次元$d$の制限に重点を置いてきた。
代わりに、データポイントの数$n$$$y_i$とそれらの次元$d$が、固定比$\alpha=(\log n)/d$で成長する状態を分析する。
我々の研究は、カーネルベースの密度$\hat \rho_h^{\mathcal {D}}(x)=\frac{1}{n h^d}\sum_{i=1}^n K\left(\frac{x-y_i}{h}\right)$, 帯域幅$h$: 中央極限定理(CLT)が持つ大帯域幅の古典的レジーム。
帯域幅の一定の値の下に$h_{CLT}(\alpha)$ とすると、CLTが故障する。
$\hat \rho_h^{\mathcal {D}}(x)$ for a fixed $x$ from $\rho(x)$の統計は、重尾分布(アルファ安定分布)によって与えられる。
特に$h_G(\alpha)$ 以下の値では、$\hat \rho_h^{\mathcal {D}}(x)$ は極値統計によって支配される。
高次元多変量ガウスデータの詳細な解析を行う。
本稿では,Kullback-Leibler分散に基づく帯域幅の最適しきい値が,本論文で同定された新しい統計体系に含まれることを示す。
本研究は,従来の手法の限界を明らかにするとともに,これらの新しい統計体系の妥当性を示し,高次元環境におけるケルネル密度推定の新しい知見を提供する。
関連論文リスト
- Convergence Analysis of Probability Flow ODE for Score-based Generative Models [5.939858158928473]
確率フローODEに基づく決定論的サンプリング器の収束特性を理論的・数値的両面から検討する。
連続時間レベルでは、ターゲットと生成されたデータ分布の総変動を$mathcalO(d3/4delta1/2)$で表すことができる。
論文 参考訳(メタデータ) (2024-04-15T12:29:28Z) - Debiasing and a local analysis for population clustering using
semidefinite programming [1.9761774213809036]
サブガウス分布の混合から引き出された小さいデータサンプルを$n$で分割する問題を考察する。
この研究は、起源の個体数に応じた集団化の応用によって動機付けられている。
論文 参考訳(メタデータ) (2024-01-16T03:14:24Z) - Efficient Estimation of the Central Mean Subspace via Smoothed Gradient
Outer Products [13.16054090477072]
マルチインデックスモデルに対する十分な次元削減の問題を考察する。
高速パラメトリック収束速度が$C_d cdot n-1/2$であることを示す。
論文 参考訳(メタデータ) (2023-12-24T12:28:07Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Data Structures for Density Estimation [66.36971978162461]
p$のサブリニア数($n$)が与えられた場合、主な結果は$k$のサブリニアで$v_i$を識別する最初のデータ構造になります。
また、Acharyaなどのアルゴリズムの改良版も提供します。
論文 参考訳(メタデータ) (2023-06-20T06:13:56Z) - Near-optimal fitting of ellipsoids to random points [68.12685213894112]
楕円体をランダムな点に合わせるという基本的な問題は、低ランク行列分解、独立成分分析、主成分分析に関係している。
我々はこの予想を、ある$n = Omega(, d2/mathrmpolylog(d))$ に対する適合楕円体を構成することで対数的因子まで解決する。
我々の証明は、ある非標準確率行列の便利な分解を用いて、サンダーソン等最小二乗構成の実現可能性を示す。
論文 参考訳(メタデータ) (2022-08-19T18:00:34Z) - Settling the Sample Complexity of Model-Based Offline Reinforcement
Learning [50.5790774201146]
オフライン強化学習(RL)は、事前収集されたデータを用いて、さらなる探索を行わずに学習する。
事前のアルゴリズムや分析は、最適なサンプルの複雑さに悩まされるか、サンプルの最適性に到達するために高いバーンインコストがかかるかのいずれかである。
モデルベース(あるいは"プラグイン")アプローチは,バーンインコストを伴わずに,最小限のサンプル複雑性を実現することを実証する。
論文 参考訳(メタデータ) (2022-04-11T17:26:19Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Non-Parametric Estimation of Manifolds from Noisy Data [1.0152838128195467]
ノイズの多いサンプルの有限集合から$mathbbRD$の$d$次元部分多様体を推定する問題を検討する。
点推定では$n-frack2k + d$、接空間の推定では$n-frack-12k + d$の収束率を推定する。
論文 参考訳(メタデータ) (2021-05-11T02:29:33Z) - Convergence of Graph Laplacian with kNN Self-tuned Kernels [14.645468999921961]
自己チューニングされたカーネルは、各点に$sigma_i$ を $k$-nearest neighbor (kNN) 距離で適応的に設定する。
本稿では、グラフラプラシアン作用素$L_N$を、kNN自己チューニングカーネルの新しい族に対する多様体(重み付き)ラプラシアンに収束することを証明する。
論文 参考訳(メタデータ) (2020-11-03T04:55:33Z) - Analysis of KNN Density Estimation [56.29748742084386]
kNN密度推定は、サポートセットが知られている場合、$ell_infty$と$ell_infty$の条件の両方で最小限最適である。
$ell_infty$エラーはミニマックス下限に到達しないが、カーネル密度推定よりは優れている。
論文 参考訳(メタデータ) (2020-09-30T03:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。