論文の概要: EZLDA: Efficient and Scalable LDA on GPUs
- arxiv url: http://arxiv.org/abs/2007.08725v1
- Date: Fri, 17 Jul 2020 02:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 15:01:09.452890
- Title: EZLDA: Efficient and Scalable LDA on GPUs
- Title(参考訳): EZLDA:GPU上で効率よくスケーラブルなLDA
- Authors: Shilong Wang (1), Hang Liu (2), Anil Gaihre (2), Hengyong Yu (1) ((1)
University of Massachusetts Lowell, (2) Stevens Institute of Technology)
- Abstract要約: LDAは、幅広い応用を持つトピックモデリングの統計的アプローチである。
EZLDAは、メモリ消費を抑える最先端の試みよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LDA is a statistical approach for topic modeling with a wide range of
applications. However, there exist very few attempts to accelerate LDA on GPUs
which come with exceptional computing and memory throughput capabilities. To
this end, we introduce EZLDA which achieves efficient and scalable LDA training
on GPUs with the following three contributions: First, EZLDA introduces
three-branch sampling method which takes advantage of the convergence
heterogeneity of various tokens to reduce the redundant sampling task. Second,
to enable sparsity-aware format for both D and W on GPUs with fast sampling and
updating, we introduce hybrid format for W along with corresponding token
partition to T and inverted index designs. Third, we design a hierarchical
workload balancing solution to address the extremely skewed workload imbalance
problem on GPU and scaleEZLDA across multiple GPUs. Taken together, EZLDA
achieves superior performance over the state-of-the-art attempts with lower
memory consumption.
- Abstract(参考訳): ldaは幅広いアプリケーションを用いたトピックモデリングのための統計的アプローチである。
しかし、例外的な計算能力とメモリスループットを備えたGPU上でLDAを高速化する試みはほとんどない。
まず,様々なトークンの収束の不均一性を利用して冗長なサンプリングタスクを削減し,gpu上での効率良くスケーラブルなldaトレーニングを実現するため,ezldaでは3つのブランチサンプリング手法を導入している。
第2に,gpu上でdとwの両方のスパルシリティ対応フォーマットを高速サンプリングと更新で実現するために,w用のハイブリッドフォーマットと対応するトークンパーティションをtと逆インデックス設計に導入する。
第3に,gpuとscaleezlda上の非常に歪んだワークロード不均衡問題に対処するために,階層的なワークロード分散ソリューションを設計した。
まとめると、EZLDAはメモリ消費を抑える最先端の試行よりも優れた性能を発揮する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation [7.788139145984213]
低ランク適応(LoRA)は、ファインチューン大言語モデル(LLM)のデフォルトのアプローチとなっている。
我々はスペクトル分解低次元適応(LaMDA)による大型モデル微調整を導入する。
LaMDAはトレーニング可能なパラメータとピークGPUメモリフットプリントを大幅に削減する。
論文 参考訳(メタデータ) (2024-06-18T17:52:59Z) - HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator [47.66463010685586]
本稿では,ソフトウェアとハードウェアの共同最適化を用いて,非構造的ウェイトとデータフローアクセラレーターの疎結合性を利用した新しい手法を提案する。
我々は既存のスパース設計と比較して1.3$times$から4.2$times$までの効率改善を実現している。
論文 参考訳(メタデータ) (2024-06-05T09:25:18Z) - S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs [7.816840847892339]
投機的復号法(SD)は、LLM推論で実現可能な相当な高速化のために、かなりの量の研究の注目を集めている。
本研究では,Skippy Simultaneous Speculative Decoding (S3D)を提案する。
提案手法は,最小限のアーキテクチャ変更とデータトレーニングを必要としながら,最高のパフォーマンス・メモリ比の1つを達成した。
論文 参考訳(メタデータ) (2024-05-30T17:54:35Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering [112.16239342037714]
GES(Generalized Exponential Splatting)は、GEF(Generalized Exponential Function)を用いて3Dシーンをモデル化する斬新な表現である。
周波数変調損失の助けを借りて、GESは新規なビュー合成ベンチマークにおいて競合性能を達成する。
論文 参考訳(メタデータ) (2024-02-15T17:32:50Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - CovSegNet: A Multi Encoder-Decoder Architecture for Improved Lesion
Segmentation of COVID-19 Chest CT Scans [11.946078871080836]
高度に効率的なニューラルネットワークアーキテクチャ、すなわちCovSegNetを利用して、自動化されたCOVID-19病変のセグメンテーションスキームを提案する。
パフォーマンスは3つの公開データセットで達成されており、他の最先端のアプローチよりも大幅に向上している。
論文 参考訳(メタデータ) (2020-12-02T19:26:35Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。