論文の概要: Distributed Collapsed Gibbs Sampler for Dirichlet Process Mixture Models
in Federated Learning
- arxiv url: http://arxiv.org/abs/2312.11169v1
- Date: Mon, 18 Dec 2023 13:16:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 20:07:54.216501
- Title: Distributed Collapsed Gibbs Sampler for Dirichlet Process Mixture Models
in Federated Learning
- Title(参考訳): フェデレート学習におけるディリクレプロセス混合モデルのための分散崩壊ギブズサンプリング
- Authors: Reda Khoufache, Mustapha Lebbah, Hanene Azzag, Etienne Goffinet,
Djamel Bouchaffra
- Abstract要約: 本稿では,DPMM (DisCGS) のための分散マルコフ連鎖モンテカルロ (MCMC) 推論手法を提案する。
我々のアプローチでは、崩壊したGibbsサンプルラーを使用し、独立マシンと異種マシンの分散データを扱うように設計されています。
例えば、100Kのデータポイントのデータセットでは、中央集権的なアルゴリズムは100回のイテレーションを完了するのに約12時間かかります。
- 参考スコア(独自算出の注目度): 0.22499166814992444
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dirichlet Process Mixture Models (DPMMs) are widely used to address
clustering problems. Their main advantage lies in their ability to
automatically estimate the number of clusters during the inference process
through the Bayesian non-parametric framework. However, the inference becomes
considerably slow as the dataset size increases. This paper proposes a new
distributed Markov Chain Monte Carlo (MCMC) inference method for DPMMs (DisCGS)
using sufficient statistics. Our approach uses the collapsed Gibbs sampler and
is specifically designed to work on distributed data across independent and
heterogeneous machines, which habilitates its use in horizontal federated
learning. Our method achieves highly promising results and notable scalability.
For instance, with a dataset of 100K data points, the centralized algorithm
requires approximately 12 hours to complete 100 iterations while our approach
achieves the same number of iterations in just 3 minutes, reducing the
execution time by a factor of 200 without compromising clustering performance.
The code source is publicly available at
https://github.com/redakhoufache/DisCGS.
- Abstract(参考訳): ディリクレプロセス混合モデル(DPMM)はクラスタリング問題に対処するために広く使われている。
彼らの主な利点は、ベイズ非パラメトリックフレームワークを通じて推論プロセス中にクラスタ数を自動的に見積もる能力である。
しかし、データセットのサイズが大きくなるにつれて、推論はかなり遅くなる。
本稿では,十分な統計量を用いたdpmmsの分散マルコフ連鎖モンテカルロ(mcmc)推定法を提案する。
我々のアプローチは崩壊したgibbsサンプラーを使用しており、独立および異種マシン間の分散データを扱うよう特別に設計されている。
提案手法は高い有望な結果と優れたスケーラビリティを実現する。
例えば、100kのデータポイントのデータセットでは、集中型アルゴリズムは100回のイテレーションを完了するのに約12時間かかりますが、我々のアプローチは3分で同じイテレーション数を達成し、クラスタのパフォーマンスを損なうことなく実行時間を200倍に削減します。
ソースコードはhttps://github.com/redakhoufache/DisCGSで公開されている。
関連論文リスト
- Distributed MCMC inference for Bayesian Non-Parametric Latent Block
Model [0.24578723416255754]
ベイジアン非パラメトリック潜在ブロックモデル(DisNPLBM)のための分散マルコフ連鎖モンテカルロ(MCMC)推論手法を提案する。
我々の非パラメトリックコクラスタリングアルゴリズムは、潜在多変量ガウスブロック分布を用いて観測と特徴を分割する。
DisNPLBMは、実験結果を通じてクラスタラベリングの精度と実行時間に与える影響を実証する。
論文 参考訳(メタデータ) (2024-02-01T22:43:55Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Flag Aggregator: Scalable Distributed Training under Failures and
Augmented Losses using Convex Optimization [14.732408788010313]
MLアプリケーションはますます、複雑なディープラーニングモデルと大規模なデータセットに依存している。
計算とデータをスケールするために、これらのモデルはノードのクラスタ内で分散的にトレーニングされ、それらの更新はモデルに適用される前に集約される。
これらの設定にデータ拡張を加えることで、堅牢で効率的なアグリゲーションシステムが必要である。
この手法は,最先端のビザンツ系レジリエントアグリゲータのロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-02-12T06:38:30Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - DG-LMC: A Turn-key and Scalable Synchronous Distributed MCMC Algorithm [21.128416842467132]
ユーザフレンドリな分散MCMCアルゴリズムを用いて,高次元設定でのスケーリングを実現する。
本稿では,合成実験および実データ実験における提案手法の有効性について述べる。
論文 参考訳(メタデータ) (2021-06-11T10:37:14Z) - Variational Auto Encoder Gradient Clustering [0.0]
近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。
本稿では、より良いクラスタリングを実現するために確率関数勾配上昇を使用してデータを処理する方法を検討する。
DBSCANクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡便かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T08:00:36Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。