論文の概要: Estimating Graph Dimension with Cross-validated Eigenvalues
- arxiv url: http://arxiv.org/abs/2108.03336v1
- Date: Fri, 6 Aug 2021 23:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 04:23:17.498785
- Title: Estimating Graph Dimension with Cross-validated Eigenvalues
- Title(参考訳): 交叉型固有値を用いたグラフ次元の推定
- Authors: Fan Chen, Sebastien Roch, Karl Rohe, Shuqi Yu
- Abstract要約: 応用統計学では、潜在次元の数を推定したり、クラスターの数を推定することは基本的な問題であり、繰り返し発生する問題である。
この問題に対するクロスバリデーションな固有値アプローチを提供する。
我々の手順は、すべての$k$次元を推定できるシナリオにおいて、一貫して$k$を推定することを証明する。
- 参考スコア(独自算出の注目度): 5.0013150536632995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In applied multivariate statistics, estimating the number of latent
dimensions or the number of clusters is a fundamental and recurring problem.
One common diagnostic is the scree plot, which shows the largest eigenvalues of
the data matrix; the user searches for a "gap" or "elbow" in the decreasing
eigenvalues; unfortunately, these patterns can hide beneath the bias of the
sample eigenvalues. This methodological problem is conceptually difficult
because, in many situations, there is only enough signal to detect a subset of
the $k$ population dimensions/eigenvectors. In this situation, one could argue
that the correct choice of $k$ is the number of detectable dimensions. We
alleviate these problems with cross-validated eigenvalues. Under a large class
of random graph models, without any parametric assumptions, we provide a
p-value for each sample eigenvector. It tests the null hypothesis that this
sample eigenvector is orthogonal to (i.e., uncorrelated with) the true latent
dimensions. This approach naturally adapts to problems where some dimensions
are not statistically detectable. In scenarios where all $k$ dimensions can be
estimated, we prove that our procedure consistently estimates $k$. In
simulations and a data example, the proposed estimator compares favorably to
alternative approaches in both computational and statistical performance.
- Abstract(参考訳): 応用多変量統計学において、潜在次元数やクラスタ数の推定は基本的かつ反復的な問題である。
一般的な診断は、データマトリックスの最大の固有値を示すscreeプロットであり、ユーザは、減少する固有値の"ギャップ"や"肘"を検索するが、残念ながら、これらのパターンはサンプル固有値のバイアスの下に隠れる可能性がある。
なぜなら、多くの状況では、$k$の集団次元/固有ベクトルのサブセットを検出するのに十分な信号しか存在しないからである。
この状況では、$k$ の正しい選択は検出可能な次元の数であると主張することができる。
我々はこれらの問題をクロスバリデード固有値で緩和する。
パラメトリックな仮定なしに、ランダムグラフモデルの大きなクラスの下で、各サンプル固有ベクトルに対してp値を提供する。
これは、このサンプル固有ベクトルが真の潜在次元に直交する(すなわち非相関)という零仮説をテストする。
このアプローチは、ある次元が統計的に検出できない問題に自然に適応する。
すべての$k$次元を推定できるシナリオでは、我々の手順が一貫して$k$を推定することを証明する。
シミュレーションとデータ例において、提案する推定器は、計算と統計のパフォーマンスの両方において、代替手法と好適に比較される。
関連論文リスト
- Insufficient Statistics Perturbation: Stable Estimators for Private Least Squares [38.478776450327125]
通常の最小二乗に対するサンプルと時間効率の微分プライベートアルゴリズムを提案する。
私たちのほぼ最適精度は、条件番号または指数時間を持つデータセットに対して保持します。
論文 参考訳(メタデータ) (2024-04-23T18:00:38Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Sparse PCA with Oracle Property [115.72363972222622]
新規な正規化を伴うスパースPCAの半定緩和に基づく推定器群を提案する。
我々は、家族内の別の推定器が、スパースPCAの標準半定緩和よりも、より急激な収束率を達成することを証明した。
論文 参考訳(メタデータ) (2023-12-28T02:52:54Z) - Mean Estimation with User-level Privacy under Data Heterogeneity [54.07947274508013]
異なるユーザーは、非常に多くの異なるデータポイントを持っているかもしれない。
すべてのユーザが同じディストリビューションからサンプルを採取していると仮定することはできない。
本研究では,データの分布と量の両方でユーザデータが異なる異質なユーザデータの単純なモデルを提案する。
論文 参考訳(メタデータ) (2023-07-28T23:02:39Z) - Conformalization of Sparse Generalized Linear Models [2.1485350418225244]
等角予測法は、任意の有限サンプルサイズに対して有効である$y_n+1$の信頼セットを推定する。
魅力的ではあるが、そのような集合の計算は多くの回帰問題において計算不可能である。
経路追従アルゴリズムが共形予測集合を正確に近似する方法を示す。
論文 参考訳(メタデータ) (2023-07-11T08:36:12Z) - Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Analysis of Truncated Orthogonal Iteration for Sparse Eigenvector
Problems [78.95866278697777]
本研究では,多元的固有ベクトルを分散制約で同時に計算するTruncated Orthogonal Iterationの2つの変種を提案する。
次に,我々のアルゴリズムを適用して,幅広いテストデータセットに対するスパース原理成分分析問題を解く。
論文 参考訳(メタデータ) (2021-03-24T23:11:32Z) - Dimension-agnostic inference using cross U-statistics [33.17951971728784]
本稿では,サンプル分割と自己正規化とともに,既存のテスト統計の変分表現を用いた手法を提案する。
結果の統計学は、縮退したU統計を慎重に修正し、対角ブロックを落とし、対角ブロックを外したままにすると見なすことができる。
論文 参考訳(メタデータ) (2020-11-10T12:21:34Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Error bounds in estimating the out-of-sample prediction error using
leave-one-out cross validation in high-dimensions [19.439945058410203]
高次元状態におけるサンプル外リスク推定の問題について検討する。
広範囲にわたる経験的証拠は、アウト・ワン・アウト・クロス・バリデーションの正確さを裏付ける。
この理論の技術的利点の1つは、拡張可能な近似LOに関する最近の文献から得られたいくつかの結果を明確化し、接続することができることである。
論文 参考訳(メタデータ) (2020-03-03T20:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。