論文の概要: Distributed Bayesian Matrix Decomposition for Big Data Mining and
Clustering
- arxiv url: http://arxiv.org/abs/2002.03703v1
- Date: Mon, 10 Feb 2020 13:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 08:50:13.960515
- Title: Distributed Bayesian Matrix Decomposition for Big Data Mining and
Clustering
- Title(参考訳): ビッグデータマイニングとクラスタリングのための分散ベイズ行列分解
- Authors: Chihao Zhang and Yang Yang and Wei Zhang and Shihua Zhang
- Abstract要約: 本稿では,ビッグデータマイニングとクラスタリングのための分散行列分解モデルを提案する。
具体的には, 1) 加速度勾配降下, 2) 乗算器の交互方向法, 3) 統計的推論の3つの方法を採用する。
我々のアルゴリズムは、ビッグデータによく対応し、他の分散手法と比較して優れた、あるいは競合する性能を達成する。
- 参考スコア(独自算出の注目度): 13.491022200305824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matrix decomposition is one of the fundamental tools to discover knowledge
from big data generated by modern applications. However, it is still
inefficient or infeasible to process very big data using such a method in a
single machine. Moreover, big data are often distributedly collected and stored
on different machines. Thus, such data generally bear strong heterogeneous
noise. It is essential and useful to develop distributed matrix decomposition
for big data analytics. Such a method should scale up well, model the
heterogeneous noise, and address the communication issue in a distributed
system. To this end, we propose a distributed Bayesian matrix decomposition
model (DBMD) for big data mining and clustering. Specifically, we adopt three
strategies to implement the distributed computing including 1) the accelerated
gradient descent, 2) the alternating direction method of multipliers (ADMM),
and 3) the statistical inference. We investigate the theoretical convergence
behaviors of these algorithms. To address the heterogeneity of the noise, we
propose an optimal plug-in weighted average that reduces the variance of the
estimation. Synthetic experiments validate our theoretical results, and
real-world experiments show that our algorithms scale up well to big data and
achieves superior or competing performance compared to other distributed
methods.
- Abstract(参考訳): マトリックス分解は、現代のアプリケーションによって生成されたビッグデータから知識を見つけるための基本的なツールの1つである。
しかし、そのような手法を1台のマシンで使用すると、非常に大きなデータを処理するのが効率的か不可能である。
さらに、ビッグデータは分散的に収集され、異なるマシンに格納されることが多い。
したがって、そのようなデータは一般に強い異種ノイズを持つ。
ビッグデータ分析のための分散行列分解の開発は不可欠かつ有用である。
このような手法は、スケールを良くし、異種ノイズをモデル化し、分散システムにおける通信問題に対処するべきである。
そこで本研究では,ビッグデータマイニングとクラスタリングのための分散ベイズ行列分解モデル(DBMD)を提案する。
具体的には,分散コンピューティングを実装するための3つの戦略を採用する。
1) 勾配降下の加速
2)乗算器の交互方向法(ADMM)と
3)統計的推論。
これらのアルゴリズムの理論的収束挙動について検討する。
雑音の不均一性に対処するため,推定値のばらつきを低減する最適プラグイン重み付き平均を提案する。
合成実験は,我々の理論的結果を検証し,実世界の実験により,我々のアルゴリズムがビッグデータに順応し,他の分散手法と比較して優れた,あるいは競合的な性能を発揮することを示した。
関連論文リスト
- Spectral Clustering for Discrete Distributions [22.450518079181542]
伝統的に、離散分布(D2C)のクラスタリングは、Wasserstein Barycenter法を用いてアプローチされてきた。
本研究では, スペクトルクラスタリングと分布親和性尺度を組み合わせることで, バリセンタ法よりも精度が高く, 効率的であることを示す。
クラスタリング分布における手法の成功を理論的に保証する。
論文 参考訳(メタデータ) (2024-01-25T03:17:03Z) - Distributed Linear Regression with Compositional Covariates [5.085889377571319]
大規模合成データにおける分散スパースペナル化線形ログコントラストモデルに着目する。
2つの異なる制約凸最適化問題を解くために2つの分散最適化手法を提案する。
分散化されたトポロジでは、通信効率の高い正規化推定値を得るための分散座標ワイド降下アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-21T11:09:37Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Distributed Semi-Supervised Sparse Statistical Inference [6.685997976921953]
縮退推定器は高次元モデルパラメータの統計的推測において重要なツールである。
従来の手法では、すべてのマシンで偏りのある推定器を計算する必要がある。
ラベル付きデータと非ラベル付きデータを統合した効率的なマルチラウンド分散脱バイアス推定器を開発した。
論文 参考訳(メタデータ) (2023-06-17T17:30:43Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Information Theory Measures via Multidimensional Gaussianization [7.788961560607993]
情報理論は、データやシステムの不確実性、依存、関連性を測定するための優れたフレームワークである。
現実世界の応用にはいくつかの望ましい性質がある。
しかし,多次元データから情報を取得することは,次元性の呪いによる難題である。
論文 参考訳(メタデータ) (2020-10-08T07:22:16Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。