論文の概要: Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling
- arxiv url: http://arxiv.org/abs/2601.20706v1
- Date: Wed, 28 Jan 2026 15:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.002287
- Title: Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling
- Title(参考訳): GEMM-Centric NPUsを超えて:効率的な拡散LDMサンプリングを実現する
- Authors: Binglei Lou, Haoran Wu, Yao Lai, Jiayi Nie, Can Xiao, Xuan Guo, Rika Antonova, Robert Mullins, Aaron Zhao,
- Abstract要約: Diffusion Large Language Models (dLLMs) は、並列トークン生成を可能にする反復型デノゲーションを導入している。
我々の設計では、軽量な非GEMMベクトルプリミティブ、インプレースメモリ再利用戦略、分離された混合精度メモリ階層を用いる。
- 参考スコア(独自算出の注目度): 14.471123653746275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Large Language Models (dLLMs) introduce iterative denoising to enable parallel token generation, but their sampling phase displays fundamentally different characteristics compared to GEMM-centric transformer layers. Profiling on modern GPUs reveals that sampling can account for up to 70% of total model inference latency-primarily due to substantial memory loads and writes from vocabulary-wide logits, reduction-based token selection, and iterative masked updates. These processes demand large on-chip SRAM and involve irregular memory accesses that conventional NPUs struggle to handle efficiently. To address this, we identify a set of critical instructions that an NPU architecture must specifically optimize for dLLM sampling. Our design employs lightweight non-GEMM vector primitives, in-place memory reuse strategies, and a decoupled mixed-precision memory hierarchy. Together, these optimizations deliver up to a 2.53x speedup over the NVIDIA RTX A6000 GPU under an equivalent nm technology node. We also open-source our cycle-accurate simulation and post-synthesis RTL verification code, confirming functional equivalence with current dLLM PyTorch implementations.
- Abstract(参考訳): Diffusion Large Language Models (dLLMs) は並列トークン生成を実現するために反復デノゲーションを導入するが、そのサンプリングフェーズはGEMM中心のトランスフォーマー層と比較して根本的に異なる特徴を示す。
最新のGPUのプロファイリングによると、サンプリングは、大量のメモリ負荷とボキャブラリワイドロジットからの書き込み、還元ベースのトークン選択、反復的なマスク付き更新によって、レイテンシーの最大70%を占めることができる。
これらのプロセスは、チップ上のSRAMを大きく要求し、従来のNPUが効率的に処理するのに苦労する不規則なメモリアクセスを必要とする。
これを解決するために、NPUアーキテクチャがdLLMサンプリングのために特に最適化する必要がある重要な命令のセットを特定する。
我々の設計では、軽量な非GEMMベクトルプリミティブ、インプレースメモリ再利用戦略、分離された混合精度メモリ階層を用いる。
これらの最適化は、同等のnm技術ノードの下でNVIDIA RTX A6000 GPUを2.53倍高速化する。
また,現在のdLLM PyTorch実装と機能的等価性を確認するため,サイクル精度シミュレーションと後RTL検証コードをオープンソース化した。
関連論文リスト
- Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Towards On-Device Learning and Reconfigurable Hardware Implementation for Encoded Single-Photon Signal Processing [0.0]
ワンシッド・ジャコビ回転型オンラインシーケンス・エクストリーム・ラーニング・マシン(OSOS-ELM)に基づくオンライン・トレーニング・アルゴリズムを提案する。
我々は、ARMコアを統合した異種FPGA上でOSOS-ELMを実行する際の並列性を完全に活用する。
単一光子信号解析を含む3つのケーススタディにより,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-04-12T00:58:52Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.05657299071648]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。