論文の概要: HPU: High-Bandwidth Processing Unit for Scalable, Cost-effective LLM Inference via GPU Co-processing
- arxiv url: http://arxiv.org/abs/2504.16112v1
- Date: Fri, 18 Apr 2025 03:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.835037
- Title: HPU: High-Bandwidth Processing Unit for Scalable, Cost-effective LLM Inference via GPU Co-processing
- Title(参考訳): HPU:GPUコプロセッサによるスケーラブルで費用対効果の高いLCM推論のための高帯域処理ユニット
- Authors: Myunghyun Rhee, Joonseop Sim, Taeyoung Ahn, Seungyong Lee, Daegun Yoon, Euiseok Kim, Kyoung Park, Youngpyo Joo, Hosik Kim,
- Abstract要約: 本稿では,大容量LLM推論時のGPUリソース利用量を向上させるメモリ集約型コプロセッサを提案する。
メモリバウンドな操作をオフロードすることで、HPUはGPUが計算集約的なタスクに集中でき、全体的な効率が向上する。
我々の新しいGPU-HPUヘテロジニアスシステムは、GPUのみのシステムよりも最大4.1倍の性能向上と4.6倍のエネルギー効率向上を示す。
- 参考スコア(独自算出の注目度): 3.50604837678178
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The attention layer, a core component of Transformer-based LLMs, brings out inefficiencies in current GPU systems due to its low operational intensity and the substantial memory requirements of KV caches. We propose a High-bandwidth Processing Unit (HPU), a memoryintensive co-processor that enhances GPU resource utilization during large-batched LLM inference. By offloading memory-bound operations, the HPU allows the GPU to focus on compute-intensive tasks, increasing overall efficiency. Also, the HPU, as an add-on card, scales out to accommodate surging memory demands driven by large batch sizes and extended sequence lengths. In this paper, we show the HPU prototype implemented with PCIe-based FPGA cards mounted on a GPU system. Our novel GPU-HPU heterogeneous system demonstrates up to 4.1x performance gains and 4.6x energy efficiency improvements over a GPUonly system, providing scalability without increasing the number of GPUs.
- Abstract(参考訳): TransformerベースのLLMのコアコンポーネントである注目層は、運用強度の低さとKVキャッシュのかなりのメモリ要求のため、現在のGPUシステムでは非効率である。
本稿では,大容量LLM推論におけるGPUリソース利用量を向上させるメモリ集約型コプロセッサであるHPUを提案する。
メモリバウンドな操作をオフロードすることで、HPUはGPUが計算集約的なタスクに集中でき、全体的な効率が向上する。
また、HPUはアドオンカードとしてスケールアウトし、大きなバッチサイズと拡張シーケンス長によって駆動される増大するメモリ要求に対応する。
本稿では,PCIeベースのFPGAカードをGPUシステムに実装したHPUプロトタイプについて述べる。
我々の新しいGPU-HPUヘテロジニアスシステムは、GPUのみのシステムで最大4.1倍の性能向上と4.6倍のエネルギー効率向上を示し、GPUの数を増やすことなくスケーラビリティを提供する。
関連論文リスト
- Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。
本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文 参考訳(メタデータ) (2025-03-11T11:21:35Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation [7.204881999658682]
大規模言語モデル(LLM)の推論は計算的に要求される。
自動回帰デコーディングのコストを削減するため、キーバリュー(KV)キャッシングは中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
コスト効率のよい代替手段は、KVキャッシュをCPUメモリにオフロードすることであり、これはGPUメモリの圧力を軽減するが、ボトルネックをCPUとGPU間のPCIe接続の限られた帯域にシフトさせる。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - GPU Domain Specialization via Composable On-Package Architecture [0.8240720472180706]
Composable On-Package GPU (COPAGPU)アーキテクチャは、ドメイン特化GPU製品を提供する。
我々は,COPA-GPUが,最大4倍のオフディー帯域幅,32倍のオンパッケージキャッシュ,2.3倍のDRAM帯域幅とキャパシティを備えたベースラインGPUアーキテクチャをモジュール化することにより,DL特化製品を実現する方法を示した。
論文 参考訳(メタデータ) (2021-04-05T23:06:50Z) - The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文 参考訳(メタデータ) (2020-12-08T04:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。