論文の概要: Stacked SVD or SVD stacked? A Random Matrix Theory perspective on data integration
- arxiv url: http://arxiv.org/abs/2507.22170v1
- Date: Tue, 29 Jul 2025 19:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.823126
- Title: Stacked SVD or SVD stacked? A Random Matrix Theory perspective on data integration
- Title(参考訳): Stacked SVD or SVD stacked? データ統合に関するランダム行列理論の視点から
- Authors: Tavor Z. Baharav, Phillip B. Nicol, Rafael A. Irizarry, Rong Ma,
- Abstract要約: 現代のデータ分析では、複数の高次元データセット間で共有潜在構造を識別する必要がある。
この共有構造を推定するための2つの主要な方法は、データセット間で情報を統合する方法によって異なる。
これら2つの手法の性能および相転移の正確な表現を開発し、両手法をさらに改善するために最適な重み付け手法を開発した。
- 参考スコア(独自算出の注目度): 7.304283080560899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern data analysis increasingly requires identifying shared latent structure across multiple high-dimensional datasets. A commonly used model assumes that the data matrices are noisy observations of low-rank matrices with a shared singular subspace. In this case, two primary methods have emerged for estimating this shared structure, which vary in how they integrate information across datasets. The first approach, termed Stack-SVD, concatenates all the datasets, and then performs a singular value decomposition (SVD). The second approach, termed SVD-Stack, first performs an SVD separately for each dataset, then aggregates the top singular vectors across these datasets, and finally computes a consensus amongst them. While these methods are widely used, they have not been rigorously studied in the proportional asymptotic regime, which is of great practical relevance in today's world of increasing data size and dimensionality. This lack of theoretical understanding has led to uncertainty about which method to choose and limited the ability to fully exploit their potential. To address these challenges, we derive exact expressions for the asymptotic performance and phase transitions of these two methods and develop optimal weighting schemes to further improve both methods. Our analysis reveals that while neither method uniformly dominates the other in the unweighted case, optimally weighted Stack-SVD dominates optimally weighted SVD-Stack. We extend our analysis to accommodate multiple shared components, and provide practical algorithms for estimating optimal weights from data, offering theoretical guidance for method selection in practical data integration problems. Extensive numerical simulations and semi-synthetic experiments on genomic data corroborate our theoretical findings.
- Abstract(参考訳): 現代のデータ分析では、複数の高次元データセット間で共有潜在構造を識別する必要がある。
一般的に使用されるモデルは、データ行列が共有特異部分空間を持つ低ランク行列のノイズの多い観測であると仮定する。
この場合、この共有構造を推定するための2つの主要な手法が出現し、データセット間で情報を統合する方法が異なる。
最初のアプローチはStack-SVDと呼ばれ、すべてのデータセットを結合し、特異値分解(SVD)を実行する。
2つ目のアプローチはSVD-Stackと呼ばれ、まずデータセットごとに個別にSVDを実行する。
これらの手法は広く使われているが、今日のデータサイズと次元の増大の世界において非常に実践的な意味を持つ比例的な漸近的体制において、厳密には研究されていない。
この理論的理解の欠如は、どの方法を選ぶかの不確実性をもたらし、その可能性を完全に活用する能力を制限した。
これらの課題に対処するために、これらの2つの手法の漸近的性能と相転移の正確な表現を導出し、両方の手法をさらに改善するための最適な重み付け手法を開発する。
解析の結果, いずれの手法も未加重の場合, 他方を均一に支配しないが, 最適重み付きスタック-SVDが最適重み付きSVD-Stackを支配していることがわかった。
我々は,複数の共有コンポーネントに対応するように分析を拡張し,データから最適な重みを推定するための実用的なアルゴリズムを提供し,実践的なデータ統合問題におけるメソッド選択に関する理論的ガイダンスを提供する。
ゲノムデータに関する大規模な数値シミュレーションと半合成実験は、我々の理論的知見を裏付けるものである。
関連論文リスト
- Optimal Estimation of Shared Singular Subspaces across Multiple Noisy Matrices [3.3373545585860596]
本研究は,低ランク行列デノジングフレームワークにおいて,複数の行列にまたがる共有(左)特異部分空間を推定することに焦点を当てる。
信号行列の真の特異部分空間が同一である場合、Stack-SVDは最小の最大速度最適化を実現する。
部分的共有の様々なケースにおいて、Stack-SVDが有効であり続ける条件を厳格に特徴付け、最小限の最適性を達成したり、一貫した見積もりを達成できなかったりする。
論文 参考訳(メタデータ) (2024-11-26T02:49:30Z) - Entropic Optimal Transport Eigenmaps for Nonlinear Alignment and Joint Embedding of High-Dimensional Datasets [11.105392318582677]
本稿では,理論的保証付きデータセットの整列と共同埋め込みの原理的アプローチを提案する。
提案手法は,2つのデータセット間のEOT計画行列の先頭特異ベクトルを利用して,それらの共通基盤構造を抽出する。
EOT計画では,高次元状態において,潜伏変数の位置で評価されたカーネル関数を近似することにより,共有多様体構造を復元する。
論文 参考訳(メタデータ) (2024-07-01T18:48:55Z) - Robust SVD Made Easy: A fast and reliable algorithm for large-scale data
analysis [0.0]
既存のロバストなSVDアルゴリズムは、ロバスト性のために速度を犠牲にしたり、わずかに外れ値が存在する場合に失敗することが多い。
本研究では,Spherally Normalized SVDというアルゴリズムを導入し,ロバストなSVD近似手法を提案する。
提案アルゴリズムは, 標準低ランクSVDアルゴリズムの2つの応用しか利用せず, 顕著な高速化を実現している。
論文 参考訳(メタデータ) (2024-02-15T07:08:11Z) - Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z) - Distributed Bayesian Matrix Decomposition for Big Data Mining and
Clustering [13.491022200305824]
本稿では,ビッグデータマイニングとクラスタリングのための分散行列分解モデルを提案する。
具体的には, 1) 加速度勾配降下, 2) 乗算器の交互方向法, 3) 統計的推論の3つの方法を採用する。
我々のアルゴリズムは、ビッグデータによく対応し、他の分散手法と比較して優れた、あるいは競合する性能を達成する。
論文 参考訳(メタデータ) (2020-02-10T13:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。