論文の概要: A Statistical View of Column Subset Selection
- arxiv url: http://arxiv.org/abs/2307.12892v1
- Date: Mon, 24 Jul 2023 15:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:53:28.808658
- Title: A Statistical View of Column Subset Selection
- Title(参考訳): カラムサブセット選択の統計的考察
- Authors: Anav Sood and Trevor Hastie
- Abstract要約: 大規模データセットから代表変数の小さなサブセットを選択することの問題点を考察する。
提案手法では,(1)元のデータセットからの要約統計データのみを用いてCSSを効率的に実行する方法,(2)欠落データや検閲データの存在下でCSSを実行する方法,(3)仮説テストフレームワークでCSSのサブセットサイズを選択する方法を示す。
- 参考スコア(独自算出の注目度): 91.3755431537592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of selecting a small subset of representative
variables from a large dataset. In the computer science literature, this
dimensionality reduction problem is typically formalized as Column Subset
Selection (CSS). Meanwhile, the typical statistical formalization is to find an
information-maximizing set of Principal Variables. This paper shows that these
two approaches are equivalent, and moreover, both can be viewed as maximum
likelihood estimation within a certain semi-parametric model. Using these
connections, we show how to efficiently (1) perform CSS using only summary
statistics from the original dataset; (2) perform CSS in the presence of
missing and/or censored data; and (3) select the subset size for CSS in a
hypothesis testing framework.
- Abstract(参考訳): 大規模データセットから代表変数の小さなサブセットを選択することの問題点を考察する。
計算機科学の文献では、この次元減少問題は通常、カラムサブセット選択(CSS)として形式化される。
一方、典型的な統計形式化は、主変数の情報最大化集合を見つけることである。
本稿は,これら2つのアプローチが等価であること,さらに,ある半パラメトリックモデルにおいて両者を最大推定できることを示す。
これらの接続を用いて、(1)データセットの要約統計のみを用いてcssを効率的に実行する方法、(2)欠落データおよび/または検閲データが存在する場合にcssを実行し、(3)仮説テストフレームワークでcssのサブセットサイズを選択する方法を示す。
関連論文リスト
- Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Variance Alignment Score: A Simple But Tough-to-Beat Data Selection
Method for Multimodal Contrastive Learning [17.40655778450583]
本稿では、Sigma_texttest, Sigma_irangle$という形式を持つVariance Alignment Score(VAS)という原則付き計量を提案する。
VASとCLIPのスコアを合わせると、ノイズの多いデータセットDataCompの38評価セットに1.3%、高品質なデータセットCC12MのVTABに2.5%の差でベースラインを上回ります。
論文 参考訳(メタデータ) (2024-02-03T06:29:04Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Tutorial: a priori estimation of sample size, effect size, and
statistical power for cluster analysis, latent class analysis, and
multivariate mixture models [0.0]
このチュートリアルは、サブグループを特定する分析のためのサンプルサイズと効果サイズを決定するロードマップを提供する。
研究者が選択した領域における効果サイズに対する期待を形式化するための手順を紹介します。
次に、サブグループ分析における最小サンプルサイズを確立する方法について概説する。
論文 参考訳(メタデータ) (2023-09-02T08:48:00Z) - Subsampling Suffices for Adaptive Data Analysis [8.231050911072755]
ほとんどの古典的なテクニックは、データセットがアナリストのクエリとは独立していると仮定し、データセットが複数の適応的に選択されたクエリのために再利用される一般的な設定に分解する。
クエリが適応的に選択された場合でも、クエリが引き続き表現されるという、非常に単純な仮定のセットを特定します。
このサブサンプルベースのフレームワークの単純さにより、以前の作業でカバーされていないさまざまな現実世界のシナリオをモデル化することができる。
論文 参考訳(メタデータ) (2023-02-17T02:47:54Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Selection of Summary Statistics for Network Model Choice with
Approximate Bayesian Computation [1.8884278918443564]
選択プロセス中に異なる要約コストを考慮するために、コストベースのフィルタ選択方法の有用性を検討します。
その結果,計算量的に安価な要約統計は,分類精度に最小限の影響で効率的に選択できることがわかった。
論文 参考訳(メタデータ) (2021-01-19T18:21:06Z) - Self-Representation Based Unsupervised Exemplar Selection in a Union of
Subspaces [27.22427926657327]
表現係数の $ell_1$ ノルムによって測定されたすべてのデータポイントを最もよく再構成する部分集合を探索する新しい指数選択モデルを提案する。
データセットが独立部分空間の和から引き出されるとき、我々の方法は各部分空間から十分な数の代表を選択できる。
また,不均衡なデータに対して頑健で,大規模データに対して効率の良い,模範的なサブスペースクラスタリング手法も開発している。
論文 参考訳(メタデータ) (2020-06-07T19:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。