論文の概要: A Statistical View of Column Subset Selection
- arxiv url: http://arxiv.org/abs/2307.12892v2
- Date: Mon, 21 Oct 2024 02:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:10:50.848970
- Title: A Statistical View of Column Subset Selection
- Title(参考訳): カラムサブセット選択の統計的考察
- Authors: Anav Sood, Trevor Hastie,
- Abstract要約: 大規模データセットから代表変数の小さなサブセットを選択することの問題点を考察する。
提案手法では,(1)元のデータセットからの要約統計データのみを用いてCSSを効率的に実行する方法,(2)欠落データや検閲データの存在下でCSSを実行する方法,(3)仮説テストフレームワークでCSSのサブセットサイズを選択する方法を示す。
- 参考スコア(独自算出の注目度): 47.65143789184956
- License:
- Abstract: We consider the problem of selecting a small subset of representative variables from a large dataset. In the computer science literature, this dimensionality reduction problem is typically formalized as Column Subset Selection (CSS). Meanwhile, the typical statistical formalization is to find an information-maximizing set of Principal Variables. This paper shows that these two approaches are equivalent, and moreover, both can be viewed as maximum likelihood estimation within a certain semi-parametric model. Within this model, we establish suitable conditions under which the CSS estimate is consistent in high dimensions, specifically in the proportional asymptotic regime where the number of variables over the sample size converges to a constant. Using these connections, we show how to efficiently (1) perform CSS using only summary statistics from the original dataset; (2) perform CSS in the presence of missing and/or censored data; and (3) select the subset size for CSS in a hypothesis testing framework.
- Abstract(参考訳): 大規模データセットから代表変数の小さなサブセットを選択することの問題点を考察する。
計算機科学の文献では、この次元減少問題は通常、カラムサブセット選択(CSS)として形式化される。
一方、典型的な統計形式化は、主変数の情報を最大化する集合を見つけることである。
本稿は,これら2つのアプローチが等価であること,さらに,ある半パラメトリックモデルにおいて,両者を最大推定とみなすことができることを示す。
本モデルでは,CSS推定値が高次元,特にサンプルサイズを超える変数数が定数に収束する比例漸近状態において,高次元で一貫した適切な条件を確立する。
これらの接続を用いて、(1)元のデータセットからの要約統計のみを用いてCSSを実行する方法、(2)欠落したデータや検閲されたデータの存在下でCSSを実行する方法、(3)仮説テストフレームワークでCSSのサブセットサイズを選択する方法を示す。
関連論文リスト
- Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Tutorial: a priori estimation of sample size, effect size, and
statistical power for cluster analysis, latent class analysis, and
multivariate mixture models [0.0]
このチュートリアルは、サブグループを特定する分析のためのサンプルサイズと効果サイズを決定するロードマップを提供する。
研究者が選択した領域における効果サイズに対する期待を形式化するための手順を紹介します。
次に、サブグループ分析における最小サンプルサイズを確立する方法について概説する。
論文 参考訳(メタデータ) (2023-09-02T08:48:00Z) - Robust Statistical Comparison of Random Variables with Locally Varying
Scale of Measurement [0.562479170374811]
異なる次元の多次元構造のような局所的に異なる測定スケールを持つ空間は、統計学や機械学習において非常に一般的である。
我々は、そのような非標準空間に写像される確率変数の期待値(集合)に基づく順序を考えることで、この問題に対処する。
この順序は、極端ケースとして支配性や期待順序を含む。
論文 参考訳(メタデータ) (2023-06-22T11:02:18Z) - Two-Stage Robust and Sparse Distributed Statistical Inference for
Large-Scale Data [18.34490939288318]
本稿では,高次元データやオフレーヤによって汚染される可能性のある大規模データを含む設定において,統計的推論を行うという課題に対処する。
空間性を促進することによって高次元モデルに対処する2段階の分散および頑健な統計的推論手法を提案する。
論文 参考訳(メタデータ) (2022-08-17T11:17:47Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Estimating Graph Dimension with Cross-validated Eigenvalues [5.0013150536632995]
応用統計学では、潜在次元の数を推定したり、クラスターの数を推定することは基本的な問題であり、繰り返し発生する問題である。
この問題に対するクロスバリデーションな固有値アプローチを提供する。
我々の手順は、すべての$k$次元を推定できるシナリオにおいて、一貫して$k$を推定することを証明する。
論文 参考訳(メタデータ) (2021-08-06T23:52:30Z) - Manifold Hypothesis in Data Analysis: Double Geometrically-Probabilistic
Approach to Manifold Dimension Estimation [92.81218653234669]
本稿では, 多様体仮説の検証と基礎となる多様体次元推定に対する新しいアプローチを提案する。
我々の幾何学的手法はミンコフスキー次元計算のためのよく知られたボックスカウントアルゴリズムのスパースデータの修正である。
実データセットの実験では、2つの手法の組み合わせに基づく提案されたアプローチが強力で効果的であることが示されている。
論文 参考訳(メタデータ) (2021-07-08T15:35:54Z) - Fisher's combined probability test for high-dimensional covariance
matrices [0.0]
本稿では2次形式統計と最大形式統計のp-値を組み合わせたフィッシャー法に基づくスケール不変電力拡張試験を提案する。
提案手法は,提案手法が正しいサイズを維持し,より一般的な代替手段に対するパワーを高めることを証明している。
論文 参考訳(メタデータ) (2020-05-31T03:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。