#### 論文の概要: Spectral Methods for Data Science: A Statistical Perspective

• arxiv url: http://arxiv.org/abs/2012.08496v1
• Date: Tue, 15 Dec 2020 18:40:56 GMT
• ステータス: 処理完了
• システム内更新日: 2021-05-07 09:33:58.912010
• Title: Spectral Methods for Data Science: A Statistical Perspective
• Title（参考訳）: データサイエンスのための分光法:統計的展望
• Authors: Yuxin Chen, Yuejie Chi, Jianqing Fan, Cong Ma
• Abstract要約: スペクトル法は、巨大でノイズの多い不完全なデータから情報を抽出するための単純で驚くほど効果的な手法として登場した。 この本は、現代の統計学的観点から、体系的で包括的でアクセスしやすいスペクトル法の導入を意図している。
• 参考スコア（独自算出の注目度）: 37.2486912080998
• Abstract: Spectral methods have emerged as a simple yet surprisingly effective approach for extracting information from massive, noisy and incomplete data. In a nutshell, spectral methods refer to a collection of algorithms built upon the eigenvalues (resp. singular values) and eigenvectors (resp. singular vectors) of some properly designed matrices constructed from data. A diverse array of applications have been found in machine learning, data science, and signal processing. Due to their simplicity and effectiveness, spectral methods are not only used as a stand-alone estimator, but also frequently employed to initialize other more sophisticated algorithms to improve performance. While the studies of spectral methods can be traced back to classical matrix perturbation theory and methods of moments, the past decade has witnessed tremendous theoretical advances in demystifying their efficacy through the lens of statistical modeling, with the aid of non-asymptotic random matrix theory. This monograph aims to present a systematic, comprehensive, yet accessible introduction to spectral methods from a modern statistical perspective, highlighting their algorithmic implications in diverse large-scale applications. In particular, our exposition gravitates around several central questions that span various applications: how to characterize the sample efficiency of spectral methods in reaching a target level of statistical accuracy, and how to assess their stability in the face of random noise, missing data, and adversarial corruptions? In addition to conventional $\ell_2$ perturbation analysis, we present a systematic $\ell_{\infty}$ and $\ell_{2,\infty}$ perturbation theory for eigenspace and singular subspaces, which has only recently become available owing to a powerful "leave-one-out" analysis framework.
• Abstract（参考訳）: スペクトル法は、巨大でノイズの多い不完全なデータから情報を抽出するための単純で驚くほど効果的な手法として登場した。 簡単に言えば、スペクトル法は固有値(resp)に基づいて構築されたアルゴリズムの集合を指す。 特異値)と固有ベクトル(resp。 データから構築されたいくつかの適切に設計された行列の特異ベクトル)。 様々な応用が機械学習、データサイエンス、信号処理で発見されている。 その単純さと有効性のため、スペクトル法は単独の推定器としてだけでなく、他の洗練されたアルゴリズムを初期化して性能を向上させるために頻繁に用いられる。 スペクトル法の研究は古典的行列摂動理論やモーメントの方法に遡ることができるが、過去10年間、非漸近的ランダム行列理論(英語版)の助けを借りて、統計モデリングのレンズを通してその効力を減弱する理論的な進歩を目撃してきた。 このモノグラフは、現代の統計的観点から、体系的で包括的でアクセスしやすいスペクトル法の導入を示し、様々な大規模アプリケーションにおけるアルゴリズムの影響を強調することを目的としている。 特に,統計的精度の目標レベルに達する際のスペクトル法のサンプル効率を特徴付ける方法や,無作為なノイズやデータ不足,反面的な汚職に対して,その安定性を評価する方法など,さまざまな応用分野にまたがるいくつかの中心的疑問を浮き彫りにした。 従来の $\ell_2$ 摂動解析に加えて、固有空間と特異部分空間に対する体系的な $\ell_{\infty}$ と $\ell_{2,\infty}$ 摂動理論を提示する。

#### 関連論文リスト

• Robust Regularized Low-Rank Matrix Models for Regression and Classification [14.698622796774634]
本稿では,ランク制約,ベクトル正規化(疎性など),一般損失関数に基づく行列変分回帰モデルのフレームワークを提案する。 アルゴリズムは収束することが保証されており、アルゴリズムのすべての累積点が$O(sqrtn)$100の順序で推定誤差を持ち、最小値の精度をほぼ達成していることを示す。
論文  参考訳（メタデータ） (2022-05-14T18:03:48Z)
• On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。 分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文  参考訳（メタデータ） (2022-02-28T13:01:04Z)
• Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet Transmission Spectra [68.8204255655161]
我々は、通過する太陽系外惑星のスペクトルデータを解析するための教師なし手法に焦点をあてる。 スペクトルデータには、適切な低次元表現を要求する高い相関関係があることが示される。 主成分に基づく興味深い構造、すなわち、異なる化学状態に対応する明確に定義された分岐を明らかにする。
論文  参考訳（メタデータ） (2022-01-07T22:26:33Z)
• A Random Matrix Perspective on Random Tensors [40.89521598604993]
与えられたランダムテンソルの収縮から生じるランダム行列のスペクトルについて検討する。 本手法は,ML問題の局所的な最大値の未知な特徴を与える。 我々のアプローチは万能であり、非対称、非ガウス的、高階的など他のモデルにも拡張できる。
論文  参考訳（メタデータ） (2021-08-02T10:42:22Z)
• Efficient Multidimensional Functional Data Analysis Using Marginal Product Basis Systems [0.0]
テンソルのランダムサンプルから多次元連続表現を学習するためのフレームワークを提案する。 これらの表現は乗法的に分離可能であり、$L2$の最適性基準に従ってデータに適応することが定義される。 本研究では, テンソル分解により, 得られた推定問題を効率的に解けることを示す。
論文  参考訳（メタデータ） (2021-07-30T16:02:15Z)
• Probabilistic Simplex Component Analysis [66.30587591100566]
PRISMは、データ循環記述のシンプルさの頂点をデータから識別する確率論的シンプルコンポーネント分析手法である。 この問題には多様な応用があり、最も注目すべきはリモートセンシングにおけるハイパースペクトルアンミックスと機械学習における非負行列分解である。
論文  参考訳（メタデータ） (2021-03-18T05:39:00Z)
• Mean-field methods and algorithmic perspectives for high-dimensional machine learning [5.406386303264086]
障害のあるシステムの統計物理学のツールに基づくアプローチを再検討する。 我々は、様々な理論モデルの位相図に光を放つために、複製法とメッセージパッシングアルゴリズムの深い接続に乗じる。
論文  参考訳（メタデータ） (2021-03-10T09:02:36Z)
• Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。 提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文  参考訳（メタデータ） (2020-12-29T04:08:38Z)
• Attentional Biased Stochastic Gradient for Imbalanced Classification [106.11888272505176]
深層学習におけるデータ不均衡問題に対処するための単純かつ効果的な手法(ABSGD)を提案する。 この方法は、ミニバッチの各グラデーションに個々の重要性の重みを割り当てる注意メカニズムを利用する運動量SGDの単純な修正です。 ベンチマークデータセットを用いた実験により,提案手法の有効性を実証した。
論文  参考訳（メタデータ） (2020-12-13T03:41:52Z)