論文の概要: AMMA: A Multi-Chiplet Memory-Centric Architecture for Low-Latency 1M Context Attention Serving
- arxiv url: http://arxiv.org/abs/2604.26103v2
- Date: Thu, 30 Apr 2026 09:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 14:06:12.728783
- Title: AMMA: A Multi-Chiplet Memory-Centric Architecture for Low-Latency 1M Context Attention Serving
- Title(参考訳): AMMA: 低レイテンシ1Mコンテキストアテンションサービングのためのマルチチップメモリ中心アーキテクチャ
- Authors: Zhongkai Yu, Haotian Ye, Chenyang Zhou, Ohm Rishabh Venkatachalam, Zaifeng Pan, Zhengding Hu, Junsung Kim, Won Woo Ro, Po-An Tsai, Shuyi Pei, Yangwook Kang, Yufei Ding,
- Abstract要約: AMMAは、低コンテキスト長コンテキストアテンションのためのメモリ中心アーキテクチャである。
AMMAはNVIDIA H100に比べて15.5倍の注意遅延と6.9倍のエネルギー消費を実現している。
- 参考スコア(独自算出の注目度): 14.971707812736005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: All current LLM serving systems place the GPU at the center, from production-level attention-FFN disaggregation to NVIDIA's Rubin GPU-LPU heterogeneous platform. Even academic PIM/PNM proposals still treat the GPU as the central hub for cross-device communication. Yet the GPU's compute-rich architecture is fundamentally mismatched with the memory-bound nature of decode-phase attention, inflating serving latency while wasting power and die area on idle compute units. The problem is compounded as reasoning and agentic workloads push context lengths toward one million tokens, making attention latency the primary user-facing bottleneck. To address these inefficiencies, we present AMMA, a multi-chiplet, memory-centric architecture for low-latency long-context attention. AMMA replaces GPU compute dies with HBM-PNM cubes, roughly doubling the available memory bandwidth to better serve memory-bound attention workloads. To translate this bandwidth into proportional performance gains, we introduce (i) a logic-die microarchitecture that fully exploits per-cube internal bandwidth for decode attention under a minimal power and area budget, (ii) a two-level hybrid parallelism scheme, and (iii) a reordered collective flow that reduces intra-chip die-to-die communication overhead. We further conduct a design-space exploration over per-cube compute power and intra-chip D2D link bandwidth, providing actionable guidance for hardware designers. Evaluations show that AMMA achieves 15.5X lower attention latency and 6.9X lower energy consumption compared with the NVIDIA H100.
- Abstract(参考訳): 現在のLLMサービスシステムはすべて、生産レベルの注意-FFN分散からNVIDIAのRubin GPU-LPUヘテロジニアスプラットフォームに至るまで、GPUを中央に置く。
学術的なPIM/PNMの提案でさえ、GPUをデバイス間通信のハブとして扱う。
しかし、GPUの計算量の多いアーキテクチャは、デコードフェーズアテンションのメモリバウンドの性質と根本的に一致せず、アイドルコンピューティングユニットの電力とダイエリアを浪費しながら、レイテンシーを膨らませている。
この問題は、推論とエージェントのワークロードがコンテキストの長さを100万のトークンにプッシュすることで、注意の遅延がユーザの直面する主要なボトルネックになります。
これらの非効率性に対処するため,低遅延長文注意のためのマルチチップ・メモリ中心アーキテクチャであるAMMAを提案する。
AMMAはGPU計算のダイをHBM-PNMキューブに置き換え、使用可能なメモリ帯域幅を2倍にし、メモリバウンドなアテンションワークロードに役立てる。
この帯域幅を比例性能ゲインに変換するために,我々は,その帯域幅について紹介する。
一 最小限の電力及び面積予算の下で、キューブ毎の内部帯域幅を完全に活用して注意を復号する論理的マイクロアーキテクチャ。
(二)二段階ハイブリッド並列化方式及び
三 チップ内ダイ・ダイ・ダイ・ダイ・ダイ・ダイ・ダイ・ダイ・ダイ・コミュニケーションのオーバーヘッドを低減する組換えフロー。
さらに、キューブ当たりの計算パワーとチップ内D2Dリンク帯域について設計空間を探索し、ハードウェア設計者に対して実用的なガイダンスを提供する。
評価の結果、AMMAはNVIDIA H100と比較して15.5倍の注意遅延と6.9倍のエネルギー消費を達成している。
関連論文リスト
- Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference [45.78442013449325]
大規模言語モデルは、複雑な推論をサポートするための効率的な長文処理と生成機構に依存している。
これらの最適化は、Prepare Memory、Compute Relevancy、Retrieval、Apply to Inferenceという4段階のメモリ処理パイプラインに統合できることを示す。
この知見に触発されて、textbheterogeneous システムはメモリ処理の高速化やエンドツーエンドの推論に適していると論じる。
論文 参考訳(メタデータ) (2026-03-30T21:03:39Z) - Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - Optimizing Attention on GPUs by Exploiting GPU Architectural NUMA Effects [3.124720734513875]
我々は、従来のGPUカーネルスケジューリング戦略を損なうことなく、計算領域間でメモリレイテンシと帯域幅がいかに大きく変化するかを示す。
Swizzled Head-first Mappingは、注意をGPU NUMAドメインに合わせる空間認識型スケジューリング戦略である。
AMDのMI300Xアーキテクチャでは,最先端の注目アルゴリズムよりも50%高い性能を実現している。
論文 参考訳(メタデータ) (2025-11-03T23:48:39Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - AIRES: Accelerating Out-of-Core GCNs via Algorithm-System Co-Design [6.554916179445241]
グラフ畳み込みネットワーク(GCN)は、バイオメディカルタンパク質とタンパク質の相互作用(PPI)から大規模レコメンデーションシステムまで、様々な科学的応用において基本的なものである。
GCNのグラフ構造をモデル化するための重要な要素はスパース一般行列行列乗法(SpGEMM)である。
SpGEMMは、リソースに制約のあるシステムにおいて、限られたGPUメモリスペースのために、アウトオブコアで実行されることが多い。
本稿では,GCNのアウトオブコア SpGEMM 計算を高速化するアルゴリズム-システム共設計ソリューション AIRES を提案する。
論文 参考訳(メタデータ) (2025-07-02T00:35:43Z) - L3: DIMM-PIM Integrated Architecture and Coordination for Scalable Long-Context LLM Inference [6.886434948681708]
大きな言語モデル(LLM)では、長いテキストシーケンスの処理がますます必要になるが、GPUメモリの制限により、メモリ容量と帯域幅のトレードオフが困難になる。
重要なメモリボトルネックは、マルチヘッドアテンションの復号フェーズにある。
本稿では,DIMM-PIMとGPUデバイスを統合したハードウェア・ソフトウェア共同設計システムであるL3を提案する。
論文 参考訳(メタデータ) (2025-04-24T14:14:07Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文 参考訳(メタデータ) (2020-12-08T04:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。