Fugu-MT 論文翻訳(概要): EZLDA: Efficient and Scalable LDA on GPUs

論文の概要: EZLDA: Efficient and Scalable LDA on GPUs

arxiv url: http://arxiv.org/abs/2007.08725v1
Date: Fri, 17 Jul 2020 02:40:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-09 15:01:09.452890
Title: EZLDA: Efficient and Scalable LDA on GPUs
Title（参考訳）: EZLDA:GPU上で効率よくスケーラブルなLDA
Authors: Shilong Wang (1), Hang Liu (2), Anil Gaihre (2), Hengyong Yu (1) ((1) University of Massachusetts Lowell, (2) Stevens Institute of Technology)
Abstract要約: LDAは、幅広い応用を持つトピックモデリングの統計的アプローチである。 EZLDAは、メモリ消費を抑える最先端の試みよりも優れた性能を実現する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LDA is a statistical approach for topic modeling with a wide range of applications. However, there exist very few attempts to accelerate LDA on GPUs which come with exceptional computing and memory throughput capabilities. To this end, we introduce EZLDA which achieves efficient and scalable LDA training on GPUs with the following three contributions: First, EZLDA introduces three-branch sampling method which takes advantage of the convergence heterogeneity of various tokens to reduce the redundant sampling task. Second, to enable sparsity-aware format for both D and W on GPUs with fast sampling and updating, we introduce hybrid format for W along with corresponding token partition to T and inverted index designs. Third, we design a hierarchical workload balancing solution to address the extremely skewed workload imbalance problem on GPU and scaleEZLDA across multiple GPUs. Taken together, EZLDA achieves superior performance over the state-of-the-art attempts with lower memory consumption.
Abstract（参考訳）: ldaは幅広いアプリケーションを用いたトピックモデリングのための統計的アプローチである。しかし、例外的な計算能力とメモリスループットを備えたGPU上でLDAを高速化する試みはほとんどない。まず,様々なトークンの収束の不均一性を利用して冗長なサンプリングタスクを削減し,gpu上での効率良くスケーラブルなldaトレーニングを実現するため,ezldaでは3つのブランチサンプリング手法を導入している。第2に,gpu上でdとwの両方のスパルシリティ対応フォーマットを高速サンプリングと更新で実現するために,w用のハイブリッドフォーマットと対応するトークンパーティションをtと逆インデックス設計に導入する。第3に,gpuとscaleezlda上の非常に歪んだワークロード不均衡問題に対処するために,階層的なワークロード分散ソリューションを設計した。まとめると、EZLDAはメモリ消費を抑える最先端の試行よりも優れた性能を発揮する。

関連論文リスト

DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。 LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文参考訳（メタデータ） (2025-07-03T22:53:34Z)
AIRES: Accelerating Out-of-Core GCNs via Algorithm-System Co-Design [6.554916179445241]
グラフ畳み込みネットワーク(GCN)は、バイオメディカルタンパク質とタンパク質の相互作用(PPI)から大規模レコメンデーションシステムまで、様々な科学的応用において基本的なものである。 GCNのグラフ構造をモデル化するための重要な要素はスパース一般行列行列乗法(SpGEMM)である。 SpGEMMは、リソースに制約のあるシステムにおいて、限られたGPUメモリスペースのために、アウトオブコアで実行されることが多い。本稿では,GCNのアウトオブコア SpGEMM 計算を高速化するアルゴリズム-システム共設計ソリューション AIRES を提案する。
論文参考訳（メタデータ） (2025-07-02T00:35:43Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文参考訳（メタデータ） (2025-01-31T11:34:03Z)
Balanced 3DGS: Gaussian-wise Parallelism Rendering with Fine-Grained Tiling [8.748586633362446]
本稿では,3DGS トレーニングプロセスにおける微細なタイリングによるガウスワイド並列化レンダリングである Balanced 3DGS を紹介する。本稿では,ひとつのGPU内のストリームマルチプロセッサ(SM)リソースにワークロードをマッピングするブロック間動的ワークロード分散手法を提案する。我々は、すべてのSMに対してワークロードを均一に分散する、きめ細かい結合ロードバランシング手法を提唱し、RDBカーネルのパフォーマンスを最大7.52倍に向上させた。
論文参考訳（メタデータ） (2024-12-23T08:26:30Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。 DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文参考訳（メタデータ） (2024-10-09T05:16:44Z)
Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文参考訳（メタデータ） (2024-07-29T00:14:10Z)
LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation [7.788139145984213]
低ランク適応(LoRA)は、ファインチューン大言語モデル(LLM)のデフォルトのアプローチとなっている。我々はスペクトル分解低次元適応(LaMDA)による大型モデル微調整を導入する。 LaMDAはトレーニング可能なパラメータとピークGPUメモリフットプリントを大幅に削減する。
論文参考訳（メタデータ） (2024-06-18T17:52:59Z)
HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator [47.66463010685586]
本稿では,ソフトウェアとハードウェアの共同最適化を用いて,非構造的ウェイトとデータフローアクセラレーターの疎結合性を利用した新しい手法を提案する。我々は既存のスパース設計と比較して1.3$times$から4.2$times$までの効率改善を実現している。
論文参考訳（メタデータ） (2024-06-05T09:25:18Z)
S3D: A Simple and Cost-Effective Self-Speculative Decoding Scheme for Low-Memory GPUs [7.816840847892339]
投機的復号法(SD)は、LLM推論で実現可能な相当な高速化のために、かなりの量の研究の注目を集めている。本研究では,Skippy Simultaneous Speculative Decoding (S3D)を提案する。提案手法は,最小限のアーキテクチャ変更とデータトレーニングを必要としながら,最高のパフォーマンス・メモリ比の1つを達成した。
論文参考訳（メタデータ） (2024-05-30T17:54:35Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering [112.16239342037714]
GES(Generalized Exponential Splatting)は、GEF(Generalized Exponential Function)を用いて3Dシーンをモデル化する斬新な表現である。周波数変調損失の助けを借りて、GESは新規なビュー合成ベンチマークにおいて競合性能を達成する。
論文参考訳（メタデータ） (2024-02-15T17:32:50Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
CovSegNet: A Multi Encoder-Decoder Architecture for Improved Lesion Segmentation of COVID-19 Chest CT Scans [11.946078871080836]
高度に効率的なニューラルネットワークアーキテクチャ、すなわちCovSegNetを利用して、自動化されたCOVID-19病変のセグメンテーションスキームを提案する。パフォーマンスは3つの公開データセットで達成されており、他の最先端のアプローチよりも大幅に向上している。
論文参考訳（メタデータ） (2020-12-02T19:26:35Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。