論文の概要: CPU- and GPU-based Distributed Sampling in Dirichlet Process Mixtures
for Large-scale Analysis
- arxiv url: http://arxiv.org/abs/2204.08988v1
- Date: Tue, 19 Apr 2022 16:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 13:35:13.984355
- Title: CPU- and GPU-based Distributed Sampling in Dirichlet Process Mixtures
for Large-scale Analysis
- Title(参考訳): 大規模解析のためのディリクレプロセスのCPUおよびGPUによる分散サンプリング
- Authors: Or Dinari, Raz Zamir, John W. Fisher III, Oren Freifeld
- Abstract要約: Dirichlet Process Mixture Model (DPMM) は、モデルの複雑さをデータに適用するための原則的なアプローチである。
その可能性と数学的優雅さにもかかわらず、DPMMはまだ実践者が広く採用する主流のツールにはなっていない。
そこで我々は,スケーラブルなDPMMM推論のための,新しい,使いやすい統計ソフトウェアパッケージを提案する。
- 参考スコア(独自算出の注目度): 11.071895608242675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of unsupervised learning, Bayesian nonparametric mixture models,
exemplified by the Dirichlet Process Mixture Model (DPMM), provide a principled
approach for adapting the complexity of the model to the data. Such models are
particularly useful in clustering tasks where the number of clusters is
unknown. Despite their potential and mathematical elegance, however, DPMMs have
yet to become a mainstream tool widely adopted by practitioners. This is
arguably due to a misconception that these models scale poorly as well as the
lack of high-performance (and user-friendly) software tools that can handle
large datasets efficiently. In this paper we bridge this practical gap by
proposing a new, easy-to-use, statistical software package for scalable DPMM
inference. More concretely, we provide efficient and easily-modifiable
implementations for high-performance distributed sampling-based inference in
DPMMs where the user is free to choose between either a multiple-machine,
multiple-core, CPU implementation (written in Julia) and a multiple-stream GPU
implementation (written in CUDA/C++). Both the CPU and GPU implementations come
with a common (and optional) python wrapper, providing the user with a single
point of entry with the same interface. On the algorithmic side, our
implementations leverage a leading DPMM sampler from (Chang and Fisher III,
2013). While Chang and Fisher III's implementation (written in MATLAB/C++) used
only CPU and was designed for a single multi-core machine, the packages we
proposed here distribute the computations efficiently across either multiple
multi-core machines or across mutiple GPU streams. This leads to speedups,
alleviates memory and storage limitations, and lets us fit DPMMs to
significantly larger datasets and of higher dimensionality than was possible
previously by either (Chang and Fisher III, 2013) or other DPMM methods.
- Abstract(参考訳): 教師なし学習の領域では、Dirichlet Process Mixture Model (DPMM)によって実証されたベイズ非パラメトリック混合モデルは、モデルの複雑さをデータに適用するための原則化されたアプローチを提供する。
このようなモデルは、クラスタ数不明のクラスタ化タスクで特に有用である。
しかし、その可能性と数学的優雅さにもかかわらず、DPMMはまだ実践者が広く採用する主流のツールにはなっていない。
これはおそらく、これらのモデルがスケールが悪く、大規模なデータセットを効率的に処理できる高性能(かつユーザフレンドリー)なソフトウェアツールが欠如しているという誤解によるものだ。
本稿では,スケーラブルなdpmm推論のための新しい統計ソフトウェアパッケージを提案することで,この実用的ギャップを埋める。
具体的には、マルチマシン、マルチコア、CPU実装(Juliaで書かれる)とマルチストリームGPU実装(CUDA/C++で書かれる)のいずれかをユーザが自由に選択できるDPMMにおいて、高性能な分散サンプリングベースの推論のための効率的で容易に修正可能な実装を提供する。
cpuとgpuの実装には共通の(そしてオプションの)pythonラッパーが付属しており、同じインターフェースで単一のエントリポイントをユーザに提供する。
アルゴリズム面では,本実装では,Chang と Fisher III, 2013 のDPMM サンプルを用いている。
chang氏とfisher iii氏の実装(matlab/c++で書かれている)はcpuのみを使用して、単一のマルチコアマシン用に設計されましたが、ここで提案するパッケージは、複数のマルチコアマシンまたは変更可能なgpuストリームに対して効率的に計算を配布します。
これにより、スピードアップ、メモリとストレージの制限を緩和し、DPMMをはるかに大きなデータセットに適合させ、以前可能だった(Chang and Fisher III, 2013)や他のDPMMメソッドよりも高次元にすることができる。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Scalable Inference for Bayesian Multinomial Logistic-Normal Dynamic Linear Models [0.5735035463793009]
この記事では、$textitFenrir$と呼ばれる、後続状態推定に対する効率的で正確なアプローチを開発します。
我々の実験から、フェンリルはスタンよりも3桁効率が良いことが示唆された。
当社のメソッドは,C++で記述されたユーザフレンドリなソフトウェアライブラリとして,Rインターフェースを備えたコミュニティで利用可能です。
論文 参考訳(メタデータ) (2024-10-07T23:20:14Z) - Implementation and Analysis of GPU Algorithms for Vecchia Approximation [0.8057006406834466]
Vecchia Approximationは計算複雑性を減らすために広く使われており、恥ずかしい並列アルゴリズムで計算することができる。
Vecchia Approximationのためにマルチコアソフトウェアが開発されたが、グラフィックス処理ユニット(GPU)上で動作するように設計されたソフトウェアは不足している。
我々の新しい手法は他の2つより優れており、GpGpU Rパッケージに表示されます。
論文 参考訳(メタデータ) (2024-07-03T01:24:44Z) - Distributed Collapsed Gibbs Sampler for Dirichlet Process Mixture Models
in Federated Learning [0.22499166814992444]
本稿では,DPMM (DisCGS) のための分散マルコフ連鎖モンテカルロ (MCMC) 推論手法を提案する。
我々のアプローチでは、崩壊したGibbsサンプルラーを使用し、独立マシンと異種マシンの分散データを扱うように設計されています。
例えば、100Kのデータポイントのデータセットでは、中央集権的なアルゴリズムは100回のイテレーションを完了するのに約12時間かかります。
論文 参考訳(メタデータ) (2023-12-18T13:16:18Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Online Multi-Object Tracking and Segmentation with GMPHD Filter and
Mask-based Affinity Fusion [79.87371506464454]
本稿では,インスタンス分割結果を入力として利用するMOTS法を提案する。
提案手法は,ガウス混合確率仮説密度 (GMPHD) フィルタ,階層型データアソシエーション (HDA) モデル,マスクベース親和性融合 (MAF) モデルに基づく。
2つの人気のあるMOTSデータセットの実験では、主要なモジュールがいくつかの改善点を示している。
論文 参考訳(メタデータ) (2020-08-31T21:06:22Z) - HeAT -- a Distributed and GPU-accelerated Tensor Framework for Data
Analytics [0.0]
HeATは、大規模並列処理のための配列ベースの数値プログラミングフレームワークで、簡単に使えるNumPyライクなAPIがある。
HeATはPyTorchをノードローカルな熱心な実行エンジンとして使用し、MPIを介して任意の規模の大規模高性能コンピューティングシステムにワークロードを分散する。
同様のフレームワークと比較すると、HeATは最大2桁のスピードアップを達成する。
論文 参考訳(メタデータ) (2020-07-27T13:33:17Z) - Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic
Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。
中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。
本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文 参考訳(メタデータ) (2020-04-13T23:09:15Z) - Particle-Gibbs Sampling For Bayesian Feature Allocation Models [77.57285768500225]
最も広く使われているMCMC戦略は、特徴割り当て行列のギブス更新に頼っている。
単一移動で特徴割り当て行列の全行を更新できるギブスサンプリング器を開発した。
このサンプルは、計算複雑性が特徴数で指数関数的にスケールするにつれて、多数の特徴を持つモデルにとって実用的ではない。
我々は,行ワイズギブズ更新と同じ分布を目標としたパーティクルギブズサンプルの開発を行うが,特徴数でのみ線形に増大する計算複雑性を有する。
論文 参考訳(メタデータ) (2020-01-25T22:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。