論文の概要: RPU -- A Reasoning Processing Unit
- arxiv url: http://arxiv.org/abs/2602.18568v2
- Date: Tue, 24 Feb 2026 03:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 13:30:08.542973
- Title: RPU -- A Reasoning Processing Unit
- Title(参考訳): RPU -- 推論処理ユニット
- Authors: Matthew Adiletta, Gu-Yeon Wei, David Brooks,
- Abstract要約: Reasoning Processing Unit (RPU) は、現代のメモリウォールの課題に対処するために設計されたチップレットベースのアーキテクチャである。
RPUは、Llama3-405B上のISO-TDPで最大45.3倍のレイテンシと18.6倍のスループットを実現している。
- 参考スコア(独自算出の注目度): 4.783828820539779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) inference performance is increasingly bottlenecked by the memory wall. While GPUs continue to scale raw compute throughput, they struggle to deliver scalable performance for memory bandwidth bound workloads. This challenge is amplified by emerging reasoning LLM applications, where long output sequences, low arithmetic intensity, and tight latency constraints demand significantly higher memory bandwidth. As a result, system utilization drops and energy per inference rises, highlighting the need for an optimized system architecture for scalable memory bandwidth. To address these challenges we present the Reasoning Processing Unit (RPU), a chiplet-based architecture designed to address the challenges of the modern memory wall. RPU introduces: (1) A Capacity-Optimized High-Bandwidth Memory (HBM-CO) that trades capacity for lower energy and cost; (2) a scalable chiplet architecture featuring a bandwidth-first power and area provisioning design; and (3) a decoupled microarchitecture that separates memory, compute, and communication pipelines to sustain high bandwidth utilization. Simulation results show that RPU performs up to 45.3x lower latency and 18.6x higher throughput over an H100 system at ISO-TDP on Llama3-405B.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論性能は、メモリウォールによってますますボトルネックになっている。
GPUは生の計算スループットを拡大し続けているが、メモリ帯域幅のワークロードに対してスケーラブルなパフォーマンスを提供するのに苦労している。
この課題は、長い出力シーケンス、低い演算強度、厳密なレイテンシ制約がメモリ帯域幅を大幅に増大させるLLMアプリケーションによって増幅される。
その結果、システム利用率が低下し、推論当たりのエネルギーが増加し、スケーラブルなメモリ帯域幅に最適化されたシステムアーキテクチャの必要性が浮き彫りになった。
これらの課題に対処するために、現代のメモリウォールの課題に対処するために設計されたチップレットベースのアーキテクチャであるReasoning Processing Unit (RPU)を紹介する。
RPUは,(1)低消費電力で容量を交換する容量最適化ハイバンド幅メモリ(HBM-CO),(2)帯域幅優先の電力と面積供給設計を備えたスケーラブルなチップレットアーキテクチャ,(3)メモリ,計算,通信パイプラインを分離して高帯域幅使用率を維持するための分離マイクロアーキテクチャを導入している。
シミュレーションの結果、RPUはLlama3-405B上のISO-TDPにおいて、最大45.3倍のレイテンシと18.6倍のスループットでH100システム上で動作していることがわかった。
関連論文リスト
- RISC-V Based TinyML Accelerator for Depthwise Separable Convolutions in Edge AI [1.1816942730023885]
本稿では,融合画素データフローを利用したハードウェアアクセラレーションアーキテクチャを提案する。
単一の出力ピクセルを計算し、すべてのステージ展開、奥行きの畳み込み、プロジェクションバイ・ストリーミングデータにわたって完了させる。
RISC-Vコア上でのベースラインソフトウェア実行で最大59.3倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-26T10:01:31Z) - PIPO: Pipelined Offloading for Efficient Inference on Consumer Devices [13.786008100564185]
我々は、消費者デバイス上で効率的な推論を行うための、パイプラインオフロード(PIPO)と呼ばれる新しいフレームワークを提案する。
PIPOは、推論のための高効率なスケジューリングを実現するために、最適化されたデータ転送と計算を補完するきめ細かいオフロードパイプラインを設計する。
論文 参考訳(メタデータ) (2025-03-15T08:48:38Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - SMOF: Streaming Modern CNNs on FPGAs with Smart Off-Chip Eviction [6.800641017055453]
本稿では,計算パイプラインに沿ったオフチップメモリに重み付けとアクティベーション消去機構を導入する。
提案機構は既存のツールフローに組み込まれ,オフチップメモリをバッファとして利用することで設計空間を拡大する。
SMOFは、競争力があり、場合によっては、コンピュータビジョンタスクの範囲で最先端のパフォーマンスを提供する能力を示した。
論文 参考訳(メタデータ) (2024-03-27T18:12:24Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML
Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。
我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。
提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文 参考訳(メタデータ) (2020-05-19T15:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。