論文の概要: Distributed Principal Subspace Analysis for Partitioned Big Data:
Algorithms, Analysis, and Implementation
- arxiv url: http://arxiv.org/abs/2103.06406v1
- Date: Thu, 11 Mar 2021 01:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:34:39.379893
- Title: Distributed Principal Subspace Analysis for Partitioned Big Data:
Algorithms, Analysis, and Implementation
- Title(参考訳): 分割ビッグデータのための分散主部分空間解析:アルゴリズム,解析,実装
- Authors: Bingqing Xiang, Arpita Gang, and Waheed U. Bajwa
- Abstract要約: 主部分空間解析(PSA)は、信号処理と機械学習における次元性低減のための最も一般的な手法の1つである。
集中型PSAソリューションは、最近のビッグデータでは急速に無関係になりつつある。
本稿では,マシンの任意の接続ネットワークの一般的な枠組みの下での分散PSAの問題を再考する。
- 参考スコア(独自算出の注目度): 9.730443503568804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Principal Subspace Analysis (PSA) is one of the most popular approaches for
dimensionality reduction in signal processing and machine learning. But
centralized PSA solutions are fast becoming irrelevant in the modern era of big
data, in which the number of samples and/or the dimensionality of samples often
exceed the storage and/or computational capabilities of individual machines.
This has led to study of distributed PSA solutions, in which the data are
partitioned across multiple machines and an estimate of the principal subspace
is obtained through collaboration among the machines. It is in this vein that
this paper revisits the problem of distributed PSA under the general framework
of an arbitrarily connected network of machines that lacks a central server.
The main contributions of the paper in this regard are threefold. First, two
algorithms are proposed in the paper that can be used for distributed PSA in
the case of data that are partitioned across either samples or (raw) features.
Second, in the case of sample-wise partitioned data, the proposed algorithm and
a variant of it are analyzed, and their convergence to the true subspace at
linear rates is established. Third, extensive experiments on both synthetic and
real-world data are carried out to validate the usefulness of the proposed
algorithms. In particular, in the case of sample-wise partitioned data, an
MPI-based distributed implementation is carried out to study the interplay
between network topology and communications cost as well as to study of effect
of straggler machines on the proposed algorithms.
- Abstract(参考訳): 主部分空間解析(PSA)は、信号処理と機械学習における次元性低減のための最も一般的な手法の1つである。
しかし、集中型psaソリューションはビッグデータの現代において急速に無関係になり、サンプル数やサンプルの寸法が個々のマシンのストレージや計算能力を超えることが多い。
これにより分散PSAソリューションが研究され、データは複数のマシンにまたがって分割され、各マシン間の協調によって主部分空間の推定値が得られる。
本論文では,中央サーバを欠いたマシンの任意接続ネットワークという一般的な枠組みの下で,分散PSAの問題を再考する。
この点における論文の主な貢献は3つある。
まず、サンプルまたは(raw)フィーチャ間で分割されたデータの場合、分散psaに使用できる2つのアルゴリズムが論文で提案されている。
第二に,標本分割データの場合,提案するアルゴリズムとその変形を解析し,線形速度における真の部分空間への収束性を確立する。
第3に,提案手法の有効性を検証するため,合成データと実世界データの両方について広範な実験を行った。
特に、サンプルワイズ分割データの場合、ネットワークトポロジと通信コストの相互作用を研究するためにMPIベースの分散実装が実行され、提案されたアルゴリズムに対するストラグラーマシンの効果を研究する。
関連論文リスト
- Unified Convergence Analysis for Score-Based Diffusion Models with Deterministic Samplers [49.1574468325115]
決定論的サンプリングのための統合収束分析フレームワークを提案する。
我々のフレームワークは$tilde O(d2/epsilon)$の反復複雑性を実現する。
また,Denoising Implicit Diffusion Models (DDIM) タイプのサンプルについて詳細な分析を行った。
論文 参考訳(メタデータ) (2024-10-18T07:37:36Z) - Deep Generative Sampling in the Dual Divergence Space: A Data-efficient & Interpretative Approach for Generative AI [29.13807697733638]
自然画像の生成的サンプリングにおける顕著な成果の上に構築する。
我々は、画像に似たサンプルを生成するという、画期的な挑戦を、潜在的に過度に野心的に提案する。
統計上の課題は、小さなサンプルサイズであり、時には数百人の被験者で構成されている。
論文 参考訳(メタデータ) (2024-04-10T22:35:06Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Distributed Linear Regression with Compositional Covariates [5.085889377571319]
大規模合成データにおける分散スパースペナル化線形ログコントラストモデルに着目する。
2つの異なる制約凸最適化問題を解くために2つの分散最適化手法を提案する。
分散化されたトポロジでは、通信効率の高い正規化推定値を得るための分散座標ワイド降下アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-21T11:09:37Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - Synthetic-to-Real Domain Generalized Semantic Segmentation for 3D Indoor
Point Clouds [69.64240235315864]
本稿では,本課題に対して,合成-実領域一般化設定を提案する。
合成と実世界のポイントクラウドデータのドメインギャップは、主に異なるレイアウトとポイントパターンにあります。
CINMixとMulti-prototypeの両方が分配ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2022-12-09T05:07:43Z) - Revisiting data augmentation for subspace clustering [21.737226432466496]
サブスペースクラスタリング(Subspace clustering)は、複数の低次元のサブスペースを囲むデータサンプルの集合をクラスタリングする古典的な問題である。
我々は,各部分空間内のデータ分布が自己表現モデルの成功に重要な役割を果たしていると主張している。
教師なし設定と半教師なし設定の2つのサブスペースクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T08:13:08Z) - Distributed Methods with Compressed Communication for Solving
Variational Inequalities, with Theoretical Guarantees [115.08148491584997]
本稿では,MASHA1 と MASHA2 の圧縮通信による変分不等式とサドル点問題の解法について理論的に検討した。
新しいアルゴリズムは双方向圧縮をサポートし、バッチの設定や、クライアントの部分的な参加を伴うフェデレーション学習のために修正することもできる。
論文 参考訳(メタデータ) (2021-10-07T10:04:32Z) - A Linearly Convergent Algorithm for Distributed Principal Component
Analysis [12.91948651812873]
本稿では,1時間スケール分散pcaアルゴリズムである分散sanger's algorithm(dsa)を提案する。
提案アルゴリズムは真の解の近傍に線形収束することを示した。
論文 参考訳(メタデータ) (2021-01-05T00:51:14Z) - Reliable Distributed Clustering with Redundant Data Assignment [48.40574754136434]
分散クラスタリングアルゴリズムは,複数のマシンにまたがる大規模データを扱うことができる。
本研究では,複数のマシンが割り当てられたローカルな計算結果に応答できない場合でも,データ全体のグローバルな情報を得ることのできる新しいデータ割当方式を提案する。
論文 参考訳(メタデータ) (2020-02-20T17:44:37Z) - Distributed Bayesian Matrix Decomposition for Big Data Mining and
Clustering [13.491022200305824]
本稿では,ビッグデータマイニングとクラスタリングのための分散行列分解モデルを提案する。
具体的には, 1) 加速度勾配降下, 2) 乗算器の交互方向法, 3) 統計的推論の3つの方法を採用する。
我々のアルゴリズムは、ビッグデータによく対応し、他の分散手法と比較して優れた、あるいは競合する性能を達成する。
論文 参考訳(メタデータ) (2020-02-10T13:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。