Fugu-MT 論文翻訳(概要): LoL-PIM: Long-Context LLM Decoding with Scalable DRAM-PIM System

論文の概要: LoL-PIM: Long-Context LLM Decoding with Scalable DRAM-PIM System

arxiv url: http://arxiv.org/abs/2412.20166v1
Date: Sat, 28 Dec 2024 14:38:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.501957
Title: LoL-PIM: Long-Context LLM Decoding with Scalable DRAM-PIM System
Title（参考訳）: LoL-PIM:スケーラブルDRAM-PIMシステムによる長期LLMデコード
Authors: Hyucksung Kwon, Kyungmo Koo, Janghyeon Kim, Woongkyu Lee, Minjae Lee, Hyungdeok Lee, Yousub Jung, Jaehan Park, Yosub Song, Byeongsu Yang, Haerang Choi, Guhyun Kim, Jongsoon Won, Woojae Shin, Changhyun Kim, Gyeongcheol Shin, Yongkee Kwon, Ilkon Kim, Euicheol Lim, John Kim, Jungwook Choi,
Abstract要約: 大規模言語モデル(LLM)は数万のトークンのシーケンスを処理する。 Processing-in-Memory (PIM) は、計算をデータに移動させることでメモリ帯域幅を最大化する。 LoL-PIM はマルチノード PIM アーキテクチャであり、ハードウェアとソフトウェアの共同設計により長期のコンテキスト LLM を高速化する。
参考スコア（独自算出の注目度）: 6.21613161960432
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The expansion of large language models (LLMs) with hundreds of billions of parameters presents significant challenges to computational resources, particularly data movement and memory bandwidth. Long-context LLMs, which process sequences of tens of thousands of tokens, further increase the demand on the memory system as the complexity in attention layers and key-value cache sizes is proportional to the context length. Processing-in-Memory (PIM) maximizes memory bandwidth by moving compute to the data and can address the memory bandwidth challenges; however, PIM is not necessarily scalable to accelerate long-context LLM because of limited per-module memory capacity and the inflexibility of fixed-functional unit PIM architecture and static memory management. In this work, we propose LoL-PIM which is a multi-node PIM architecture that accelerates long context LLM through hardware-software co-design. In particular, we propose how pipeline parallelism can be exploited across a multi-PIM module while a direct PIM access (DPA) controller (or DMA for PIM) is proposed that enables dynamic PIM memory management and results in efficient PIM utilization across a diverse range of context length. We developed an MLIR-based compiler for LoL-PIM extending a commercial PIM-based compiler where the software modifications were implemented and evaluated, while the hardware changes were modeled in the simulator. Our evaluations demonstrate that LoL-PIM significantly improves throughput and reduces latency for long-context LLM inference, outperforming both multi-GPU and GPU-PIM systems (up to 8.54x and 16.0x speedup, respectively), thereby enabling more efficient deployment of LLMs in real-world applications.
Abstract（参考訳）: 数十億のパラメータを持つ大規模言語モデル(LLM)の拡張は、計算資源、特にデータ移動とメモリ帯域幅に大きな課題をもたらす。数万のトークン列を処理するLong-context LLMは、注意層とキー値キャッシュサイズがコンテキスト長に比例するので、メモリシステムの要求をさらに増大させる。プロセッシング・イン・メモリ(PIM)は、メモリ帯域幅を最大化し、メモリ帯域幅の課題に対処するが、モジュール単位のメモリ容量の制限と固定機能ユニットPIMアーキテクチャの柔軟性と静的メモリ管理のため、PIMは必ずしも拡張性がない。本研究では,ハードウェア・ソフトウェア共同設計による長期LLMを高速化するマルチノードPIMアーキテクチャであるLoL-PIMを提案する。特に,複数PIMモジュール間でパイプライン並列性を利用する方法を提案する一方で,動的PIMメモリ管理を実現する直接PIMアクセスコントローラ(DMA for PIM)を提案する。我々は、商用PIMベースのコンパイラを拡張したLoL-PIM用のMLIRベースのコンパイラを開発し、ソフトウェア修正を実装、評価し、ハードウェア変更をシミュレータでモデル化した。評価の結果、LL-PIMはスループットを著しく向上し、LLM推論のレイテンシを低減し、マルチGPUおよびGPU-PIMシステム(それぞれ8.54xと16.0xのスピードアップ)よりも優れ、現実のアプリケーションにおけるLLMのより効率的なデプロイを可能にした。

関連論文リスト

Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文参考訳（メタデータ） (2026-01-05T08:24:16Z)
A Tensor Compiler for Processing-In-Memory Architectures [8.353569627672622]
Processing-In-Memory(PIM)デバイスは、Large Language Models(LLM)を含む機械学習(ML)モデルにおいて、メモリ集約カーネルを加速することができる。現在のコンパイルアプローチでは、複数のPIMバックエンドにまたがる多様なMLカーネルの体系的な最適化が欠如している。我々は、データ再構成と計算コード最適化を共同で最適化するPIMシステムのための、最初のデータ中心のMLコンパイラDCCを設計する。
論文参考訳（メタデータ） (2025-11-19T14:58:16Z)
P3-LLM: An Integrated NPU-PIM Accelerator for LLM Inference Using Hybrid Numerical Formats [10.43214279354138]
P3-LLMは、ハイブリッド数値形式を用いた推論のための新しい統合アクセラレータである。 P3-LLMはKV-cache量子化とウェイトアクティベーション量子化の両方の観点から最先端の精度を達成する。
論文参考訳（メタデータ） (2025-11-10T08:29:34Z)
xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。 xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。 xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文参考訳（メタデータ） (2025-10-16T13:53:47Z)
MNN-LLM: A Generic Inference Engine for Fast Large Language Model Deployment on Mobile Devices [4.385815629175844]
MNN-LLMは、モバイルデバイスへの大規模言語モデルのデプロイを加速するために設計されたフレームワークである。モデル量子化とDRAM-FlashハイブリッドストレージによるLCMのランタイム特性に対処する。特に、MNN-LLMは、現在のLLM固有のフレームワークと比較して8.6倍の速度向上を実現している。
論文参考訳（メタデータ） (2025-06-12T07:45:29Z)
LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T22:39:54Z)
L3: DIMM-PIM Integrated Architecture and Coordination for Scalable Long-Context LLM Inference [6.886434948681708]
大きな言語モデル(LLM)では、長いテキストシーケンスの処理がますます必要になるが、GPUメモリの制限により、メモリ容量と帯域幅のトレードオフが困難になる。重要なメモリボトルネックは、マルチヘッドアテンションの復号フェーズにある。本稿では,DIMM-PIMとGPUデバイスを統合したハードウェア・ソフトウェア共同設計システムであるL3を提案する。
論文参考訳（メタデータ） (2025-04-24T14:14:07Z)
PIM-LLM: A High-Throughput Hybrid PIM Architecture for 1-bit LLMs [0.4038539043067986]
PIM-LLMは1ビット大言語モデル(LLM)を高速化するために開発されたハイブリッドアーキテクチャである。我々の設計では、1秒あたりのトークンの約80倍の改善と、1ジュール当たりのトークンの70%の増加を実現している。
論文参考訳（メタデータ） (2025-03-31T21:42:43Z)
PAPI: Exploiting Dynamic Parallelism in Large Language Model Decoding with a Processing-In-Memory-Enabled Computing System [13.678531084541666]
PAPI は PIM 対応のヘテロジニアスアーキテクチャで,計算バウンドカーネルやメモリバウンドカーネルを適切なハードウェアユニットに動的にスケジューリングする。 PAPIは最先端の異種加速器と最先端のPIM専用加速器で1.8$times$と11.1$times$を達成している。
論文参考訳（メタデータ） (2025-02-21T13:52:31Z)
PIM-AI: A Novel Architecture for High-Efficiency LLM Inference [0.4746684680917117]
本稿では,大規模言語モデル推論用に設計された新しいDDR5/LPDDR5 PIMアーキテクチャであるPIM-AIを紹介する。クラウドベースのシナリオでは、PIM-AIはクエリ毎秒あたりの3年間のTCOを最大6.94倍削減する。モバイルシナリオでは、PIM-AIは最先端のモバイルSOCと比較してトークン当たりのエネルギーを10倍から20倍に削減する。
論文参考訳（メタデータ） (2024-11-26T10:54:19Z)
Anda: Unlocking Efficient LLM Inference with a Variable-Length Grouped Activation Data Format [5.527166214435735]
量子化大言語モデル(LLM)は低ビット整数(INT)重みを利用し、浮動小数点(FP)アクティベーションを保持する。これにより、コストのかかるメモリアクセスと計算に関連するFPアクティベーションに、エネルギとレイテンシのボトルネックがシフトする。既存のLCMアクセラレータは、FP計算とデータ移動を協調的に最適化する可能性を見越して、計算最適化に重点を置いている。
論文参考訳（メタデータ） (2024-11-24T20:59:39Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。 Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文参考訳（メタデータ） (2024-04-10T17:00:04Z)
Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs for Embodied AI [10.82017289243097]
LLM(Large Language Models)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。 m-LLMは、既存の最良のスキームと比較してタスクの精度を最大4%改善する。
論文参考訳（メタデータ） (2023-12-13T04:08:59Z)
DDC-PIM: Efficient Algorithm/Architecture Co-design for Doubling Data Capacity of SRAM-based Processing-In-Memory [6.367916611208411]
等価データ容量を効果的に2倍にする効率的なアルゴリズム/アーキテクチャ共設計手法であるDDC-PIMを提案する。 DDC-PIMはMobileNetV2で約2.84タイム、EfficientNet-B0で約2.69タイム、精度の損失は無視できる。最先端のマクロと比較して、DDC-PIMは重量密度と面積効率をそれぞれ最大8.41タイムと2.75タイムに改善する。
論文参考訳（メタデータ） (2023-10-31T12:49:54Z)
L2MAC: Large Language Model Automatic Computer for Extensive Code Generation [52.81694565226513]
トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定コンテキストウィンドウによって制約される。本稿では,L2MACを提案する。L2MACは,LLMをベースとした汎用型自動計算機(von Neumann Architecture)フレームワークで,長期的かつ一貫した出力生成を実現する。
論文参考訳（メタデータ） (2023-10-02T16:55:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。