論文の概要: HALO: Memory-Centric Heterogeneous Accelerator with 2.5D Integration for Low-Batch LLM Inference
- arxiv url: http://arxiv.org/abs/2510.02675v1
- Date: Fri, 03 Oct 2025 02:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.240002
- Title: HALO: Memory-Centric Heterogeneous Accelerator with 2.5D Integration for Low-Batch LLM Inference
- Title(参考訳): HALO:低バッチLDM推論のための2.5D統合メモリ中心不均質加速器
- Authors: Shubham Negi, Kaushik Roy,
- Abstract要約: 大きな言語モデル(LLM)は、レイテンシに敏感なアプリケーションにおける効率的な推論の需要を増大させた。
これらの課題に対するヘテロジニアスメモリ中心のアクセラレータであるHALOを提案する。
HALOはAtAccの最大18倍の幾何平均速度を達成し,注目度を最適化したマッピング,CENTの2.5倍を実現している。
- 参考スコア(独自算出の注目度): 8.057006406834462
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid adoption of Large Language Models (LLMs) has driven a growing demand for efficient inference, particularly in latency-sensitive applications such as chatbots and personalized assistants. Unlike traditional deep neural networks, LLM inference proceeds in two distinct phases: the prefill phase, which processes the full input sequence in parallel, and the decode phase, which generates tokens sequentially. These phases exhibit highly diverse compute and memory requirements, which makes accelerator design particularly challenging. Prior works have primarily been optimized for high-batch inference or evaluated only short input context lengths, leaving the low-batch and long context regime, which is critical for interactive applications, largely underexplored. We propose HALO, a heterogeneous memory centric accelerator designed for these unique challenges of prefill and decode phases in low-batch LLM inference. HALO integrates HBM based Compute-in-DRAM (CiD) with an on-chip analog Compute-in-Memory (CiM), co-packaged using 2.5D integration. To further improve the hardware utilization, we introduce a phase-aware mapping strategy that adapts to the distinct demands of the prefill and decode phases. Compute bound operations in the prefill phase are mapped to CiM to exploit its high throughput matrix multiplication capability, while memory-bound operations in the decode phase are executed on CiD to benefit from reduced data movement within DRAM. Additionally, we present an analysis of the performance tradeoffs of LLMs under two architectural extremes: a fully CiD and a fully on-chip analog CiM design to highlight the need for a heterogeneous design. We evaluate HALO on LLaMA-2 7B and Qwen3 8B models. Our experimental results show that LLMs mapped to HALO achieve up to 18x geometric mean speedup over AttAcc, an attention-optimized mapping and 2.5x over CENT, a fully CiD based mapping.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な採用は、特にチャットボットやパーソナライズされたアシスタントのような遅延に敏感なアプリケーションにおいて、効率的な推論の需要を増大させた。
従来のディープニューラルネットワークとは異なり、LLM推論は、完全な入力シーケンスを並列に処理するプリフィルフェーズと、トークンを逐次生成するデコードフェーズの2つの異なるフェーズで進行する。
これらのフェーズは、非常に多様な計算およびメモリ要件を示しており、特にアクセラレータ設計が困難である。
従来の作業は、主にハイバッチの推論に最適化されたり、短い入力コンテキストの長さだけを評価されたりし、低バッチで長いコンテキスト構造を残した。
低バッチLLM推論における相のプリフィルと復号化という,これらのユニークな課題に対して設計したヘテロジニアスメモリ中心のアクセラレータHALOを提案する。
HALOはHBMベースのCompute-in-DRAM(CiD)とオンチップのアナログCompute-in-Memory(CiM)を統合し、2.5Dを統合した。
ハードウェア利用のさらなる向上のために、プリフィルおよびデコードフェーズの異なる要求に適応する位相対応マッピング戦略を導入する。
プリフィル相の計算バウンド演算は、その高いスループット行列乗算能力を利用するためにCiMにマッピングされ、デコード相のメモリバウンド演算はCiD上で実行され、DRAM内のデータ移動の減少の恩恵を受ける。
さらに,LLMの性能的トレードオフを,完全CiDと完全オンチップアナログCiM設計という2つのアーキテクチャ上の極端条件下で解析し,不均一な設計の必要性を強調した。
LLaMA-2 7BおよびQwen3 8Bモデル上でHALOを評価する。
実験の結果, HALOにマッピングされたLLMは, AttAccの18倍の幾何平均速度アップ, 注意最適化マッピング, CENTの2.5倍の速度アップを実現していることがわかった。
関連論文リスト
- Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。
現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。
そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文 参考訳(メタデータ) (2025-07-13T12:33:37Z) - Hybrid Systolic Array Accelerator with Optimized Dataflow for Edge Large Language Model Inference [8.475319961845903]
エッジアクセラレータは、高い領域効率を実現し、外部メモリアクセスを最小限にする。
本稿では,ハイブリッドシストリックアレイアーキテクチャを特徴とするエッジLLM推論アクセラレータを提案する。
我々のソリューションは、ロングインプット/ロングアウトプットのシナリオで1.3B LLMを実行しながら247/117 (token/s/mm2)を達成する。
論文 参考訳(メタデータ) (2025-07-11T20:27:30Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - PAPI: Exploiting Dynamic Parallelism in Large Language Model Decoding with a Processing-In-Memory-Enabled Computing System [13.678531084541666]
PAPI は PIM 対応のヘテロジニアスアーキテクチャで,計算バウンドカーネルやメモリバウンドカーネルを適切なハードウェアユニットに動的にスケジューリングする。
PAPIは最先端の異種加速器と最先端のPIM専用加速器で1.8$times$と11.1$times$を達成している。
論文 参考訳(メタデータ) (2025-02-21T13:52:31Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。