論文の概要: ODMA: On-Demand Memory Allocation Framework for LLM Serving on LPDDR-Class Accelerators
- arxiv url: http://arxiv.org/abs/2512.09427v1
- Date: Wed, 10 Dec 2025 08:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.452635
- Title: ODMA: On-Demand Memory Allocation Framework for LLM Serving on LPDDR-Class Accelerators
- Title(参考訳): ODMA:LDDDR級加速器上でのLDM実行のためのオンデマンドメモリ割り当てフレームワーク
- Authors: Guoqiang Zou, Wanyu Wang, Hao Zheng, Longxiang Yin, Yinhe Han,
- Abstract要約: ランダムアクセス帯域の低いアクセラレータ上での大規模言語モデル(LLM)は、現在のメモリマネージャによって制限される。
本稿では,RACMのためのオンデマンドメモリ割り当てフレームワークODMAを提案する。
ODMAは、軽量長予測器と動的バケットパーティショニングと大型バケットセーフガードを結合することで、分散ドリフトとヘビーテールリクエストに対処する。
- 参考スコア(独自算出の注目度): 14.238528502723787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Serving large language models (LLMs) on accelerators with poor random-access bandwidth (e.g., LPDDR5-based) is limited by current memory managers. Static pre-allocation wastes memory, while fine-grained paging (e.g., PagedAttention) is ill-suited due to high random-access costs. Existing HBM-centric solutions do not exploit the characteristics of random-access-constrained memory (RACM) accelerators like Cambricon MLU370. We present ODMA, an on-demand memory allocation framework for RACM. ODMA addresses distribution drift and heavy-tailed requests by coupling a lightweight length predictor with dynamic bucket partitioning and a large-bucket safeguard. Boundaries are periodically updated from live traces to maximize utilization. On Alpaca and Google-NQ, ODMA improves prediction accuracy of prior work significantly (e.g., from 82.68% to 93.36%). Serving DeepSeek-R1-Distill-Qwen-7B on Cambricon MLU370-X4, ODMA raises memory utilization from 55.05% to 72.45% and improves RPS and TPS by 29% and 27% over static baselines. This demonstrates that hardware-aware allocation unlocks efficient LLM serving on RACM platforms.
- Abstract(参考訳): ランダムアクセス帯域の低いアクセラレーター(例えば、LPDDR5ベースの)上で大きな言語モデル(LLM)を実行することは、現在のメモリマネージャによって制限される。
静的なプリアロケーションはメモリを浪費するが、粒度の細かいページング(例えばPagedAttention)はランダムアクセスコストが高いため不適である。
既存のHBM中心のソリューションは、Cambricon MLU370のようなランダムアクセス制限メモリ(RACM)アクセラレーターの特性を利用していない。
本稿では,RACMのためのオンデマンドメモリ割り当てフレームワークODMAを提案する。
ODMAは、軽量長予測器と動的バケットパーティショニングと大型バケットセーフガードを結合することで、分散ドリフトとヘビーテールリクエストに対処する。
境界は生の痕跡から定期的に更新され、利用を最大化する。
AlpacaとGoogle-NQでは、ODMAは事前作業の予測精度を大幅に改善する(例:82.68%から93.36%)。
ODMAはCambricon MLU370-X4上でDeepSeek-R1-Distill-Qwen-7Bを実行し、55.05%から72.45%にメモリ使用量を増やし、静的ベースラインよりも29%、TPSを27%改善した。
このことは、ハードウェア・アウェア・アロケーションがRACMプラットフォーム上で効率的なLLMを実現することを実証している。
関連論文リスト
- Sangam: Chiplet-Based DRAM-PIM Accelerator with CXL Integration for LLM Inferencing [2.9665163298601342]
推論、特にデコードフェーズは、メモリバウンドGEMVまたはフラットGEMM操作によって支配される。
既存のインメモリソリューションは、メモリ容量の削減などの限界に直面している。
この作業は、これらの制限に対処するチップレットベースのメモリモジュールを提供する。
論文 参考訳(メタデータ) (2025-11-15T16:39:51Z) - DynaKV: Enabling Accurate and Efficient Long-Sequence LLM Decoding on Smartphones [10.813495376006427]
大規模言語モデル(LLM)は、効率的で効果的な長シーケンスデコードをサポートすることがますます期待されている。
DRAM容量が限られているため、スマートフォン上でのLLM復号化はキー値キャッシュ(KVCache)によって制限される。
我々はDynaKVを提案する。DynaKVはスマートフォン上での長時間デコードにおける精度と効率を両立させる最初の適応KVキャッシュ管理手法である。
論文 参考訳(メタデータ) (2025-10-20T08:56:02Z) - Accelerating LLM Inference via Dynamic KV Cache Placement in Heterogeneous Memory System [20.652641518700346]
大規模言語モデル(LLM)推論は、メモリ帯域幅によってますます制限される。
現代のAIハードウェアは、高速オフパッケージDRAMと高速帯域メモリ(HBM)を統合している。
本研究は,キャパシティ制約下での集積帯域利用を最大化するために,そのようなシステムにまたがる動的KVキャッシュ配置について検討する。
論文 参考訳(メタデータ) (2025-08-17T19:07:08Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models [72.61076288351201]
メモリ効率の良いオフロードミニシーケンス推論(MOM)を提案する。
MOMは重要なレイヤを小さな“ミニシーケンス”に分割し、KVキャッシュのオフロードとシームレスに統合する。
Meta-Llama-3.2-8Bでは、単一のA100 80GB GPU上での最大コンテキスト長を155kから455kに拡張する。
論文 参考訳(メタデータ) (2025-04-16T23:15:09Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。