論文の概要: EZLDA: Efficient and Scalable LDA on GPUs
- arxiv url: http://arxiv.org/abs/2007.08725v1
- Date: Fri, 17 Jul 2020 02:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 15:01:09.452890
- Title: EZLDA: Efficient and Scalable LDA on GPUs
- Title(参考訳): EZLDA:GPU上で効率よくスケーラブルなLDA
- Authors: Shilong Wang (1), Hang Liu (2), Anil Gaihre (2), Hengyong Yu (1) ((1)
University of Massachusetts Lowell, (2) Stevens Institute of Technology)
- Abstract要約: LDAは、幅広い応用を持つトピックモデリングの統計的アプローチである。
EZLDAは、メモリ消費を抑える最先端の試みよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LDA is a statistical approach for topic modeling with a wide range of
applications. However, there exist very few attempts to accelerate LDA on GPUs
which come with exceptional computing and memory throughput capabilities. To
this end, we introduce EZLDA which achieves efficient and scalable LDA training
on GPUs with the following three contributions: First, EZLDA introduces
three-branch sampling method which takes advantage of the convergence
heterogeneity of various tokens to reduce the redundant sampling task. Second,
to enable sparsity-aware format for both D and W on GPUs with fast sampling and
updating, we introduce hybrid format for W along with corresponding token
partition to T and inverted index designs. Third, we design a hierarchical
workload balancing solution to address the extremely skewed workload imbalance
problem on GPU and scaleEZLDA across multiple GPUs. Taken together, EZLDA
achieves superior performance over the state-of-the-art attempts with lower
memory consumption.
- Abstract(参考訳): ldaは幅広いアプリケーションを用いたトピックモデリングのための統計的アプローチである。
しかし、例外的な計算能力とメモリスループットを備えたGPU上でLDAを高速化する試みはほとんどない。
まず,様々なトークンの収束の不均一性を利用して冗長なサンプリングタスクを削減し,gpu上での効率良くスケーラブルなldaトレーニングを実現するため,ezldaでは3つのブランチサンプリング手法を導入している。
第2に,gpu上でdとwの両方のスパルシリティ対応フォーマットを高速サンプリングと更新で実現するために,w用のハイブリッドフォーマットと対応するトークンパーティションをtと逆インデックス設計に導入する。
第3に,gpuとscaleezlda上の非常に歪んだワークロード不均衡問題に対処するために,階層的なワークロード分散ソリューションを設計した。
まとめると、EZLDAはメモリ消費を抑える最先端の試行よりも優れた性能を発揮する。
関連論文リスト
- GES: Generalized Exponential Splatting for Efficient Radiance Field
Rendering [116.99325082775387]
GES(Generalized Exponential Splatting)は、GEF(Generalized Exponential Function)を用いて3Dシーンをモデル化する斬新な表現である。
周波数変調損失の助けを借りて、GESは新規なビュー合成ベンチマークにおいて競合性能を達成する。
論文 参考訳(メタデータ) (2024-02-15T17:32:50Z) - SiDA: Sparsity-Inspired Data-Aware Serving for Efficient and Scalable
Large Mixture-of-Experts Models [20.836988355711995]
Mixture-of-Experts (MoE) は、大規模モデルの時代に好意的なアーキテクチャとして登場した。
しかし、そのような利点を実現することは、しばしばGPUメモリの有効利用に繋がる。
大規模なMoEモデルに適した効率的な推論手法であるSiDAを導入する。
論文 参考訳(メタデータ) (2023-10-29T01:08:55Z) - Minimally Informed Linear Discriminant Analysis: training an LDA model
with unlabelled data [51.673443581397954]
本研究では,LDAモデルからの正確な射影ベクトルを,ラベルのないデータに基づいて計算可能であることを示す。
MILDA投影ベクトルはLDAに匹敵する計算コストで閉じた形で計算可能であることを示す。
論文 参考訳(メタデータ) (2023-10-17T09:50:31Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - CovSegNet: A Multi Encoder-Decoder Architecture for Improved Lesion
Segmentation of COVID-19 Chest CT Scans [11.946078871080836]
高度に効率的なニューラルネットワークアーキテクチャ、すなわちCovSegNetを利用して、自動化されたCOVID-19病変のセグメンテーションスキームを提案する。
パフォーマンスは3つの公開データセットで達成されており、他の最先端のアプローチよりも大幅に向上している。
論文 参考訳(メタデータ) (2020-12-02T19:26:35Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。