論文の概要: Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference
- arxiv url: http://arxiv.org/abs/2603.29002v1
- Date: Mon, 30 Mar 2026 21:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.864109
- Title: Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference
- Title(参考訳): 分散LDM推論のためのメモリ処理パイプラインの理解と高速化
- Authors: Zifan He, Rui Ma, Yizhou Sun, Jason Cong,
- Abstract要約: 大規模言語モデルは、複雑な推論をサポートするための効率的な長文処理と生成機構に依存している。
これらの最適化は、Prepare Memory、Compute Relevancy、Retrieval、Apply to Inferenceという4段階のメモリ処理パイプラインに統合できることを示す。
この知見に触発されて、textbheterogeneous システムはメモリ処理の高速化やエンドツーエンドの推論に適していると論じる。
- 参考スコア(独自算出の注目度): 45.78442013449325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large language models (LLMs) increasingly depends on efficient long-context processing and generation mechanisms, including sparse attention, retrieval-augmented generation (RAG), and compressed contextual memory, to support complex reasoning. We show that these optimizations can be unified into a four-step memory processing pipeline: Prepare Memory, Compute Relevancy, Retrieval, and Apply to Inference. Through systematic profiling, we identify a 22%-97% memory processing overhead in LLM inference and strong heterogeneity in its computational characteristics. Motivated by this insight, we argue that \textbf{heterogeneous systems} are well-suited to accelerate memory processing and thus end-to-end inference. We demonstrate this approach on a GPU-FPGA system by offloading sparse, irregular, and memory-bounded operations to FPGAs while retaining compute-intensive operations on GPUs. Evaluated on an AMD MI210 GPU and an Alveo U55C FPGA, our system is $1.04\sim2.2\times$ faster and requires $1.11\sim4.7\times$ less energy across multiple LLM inference optimizations than the GPU baseline (similar results hold on NVIDIA A100). These results establish heterogeneous systems as a practical direction for efficient LLM memory processing and inform future heterogeneous hardware design.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、複雑な推論をサポートするために、スパースアテンション、検索拡張生成(RAG)、圧縮されたコンテキストメモリなど、効率的な長文処理と生成機構にますます依存している。
これらの最適化は、Prepare Memory、Compute Relevancy、Retrieval、Apply to Inferenceという4段階のメモリ処理パイプラインに統合できることを示す。
体系的なプロファイリングにより、LLM推論における22%-97%のメモリ処理オーバーヘッドと、その計算特性における強い不均一性を同定する。
この知見に触発されて、メモリ処理を高速化し、エンドツーエンドの推論に適していると論じる。
本稿では,GPU上での計算集約的な演算を維持しつつ,スパース,不規則,メモリバウンドな演算をFPGAにオフロードすることで,GPU-FPGAシステム上でのこのアプローチを実証する。
AMD MI210 GPUとAlveo U55C FPGAで評価すると、我々のシステムは1.04\sim2.2\times$高速で、1.11\sim4.7\times$GPUベースラインよりも低エネルギーで複数のLM推論最適化を行う。
これらの結果は、効率的なLCMメモリ処理のための実用的な方向としてヘテロジニアスシステムを確立し、将来のヘテロジニアスハードウェア設計を通知する。
関連論文リスト
- Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling [14.471123653746275]
Diffusion Large Language Models (dLLMs) は、並列トークン生成を可能にする反復型デノゲーションを導入している。
我々の設計では、軽量な非GEMMベクトルプリミティブ、インプレースメモリ再利用戦略、分離された混合精度メモリ階層を用いる。
論文 参考訳(メタデータ) (2026-01-28T15:37:50Z) - LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs [14.676146518251185]
本稿では,ベクトル量子化メモリ演算による1B+LLM推論を実現するFPGAアクセラレータLUT-LLMを提案する。
LUT-LLMはAMD MI210より1.66倍、NVIDIA A100より1.72倍のエネルギー効率を実現し、A100より2.16倍の効率で32Bモデルにスケールする。
論文 参考訳(メタデータ) (2025-11-09T01:17:08Z) - POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。