論文の概要: PREBA: A Hardware/Software Co-Design for Multi-Instance GPU based AI Inference Servers
- arxiv url: http://arxiv.org/abs/2411.19114v1
- Date: Thu, 28 Nov 2024 13:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:29.580910
- Title: PREBA: A Hardware/Software Co-Design for Multi-Instance GPU based AI Inference Servers
- Title(参考訳): PreBA: マルチインスタンスGPUベースのAI推論サーバのためのハードウェア/ソフトウェア共同設計
- Authors: Gwangoo Yeo, Jiin Kim, Yujeong Choi, Minsoo Rhu,
- Abstract要約: PreBA(プレバ)は、MIG推論サーバをターゲットにしたハードウェア/ソフトウェアの共同設計である。
3.7倍のスループット、テールレイテンシの3.4倍の削減、エネルギー効率の3.5倍の改善、コスト効率の3.0倍の改善を提供する。
- 参考スコア(独自算出の注目度): 3.0518650058744075
- License:
- Abstract: NVIDIA's Multi-Instance GPU (MIG) is a feature that enables system designers to reconfigure one large GPU into multiple smaller GPU slices. This work characterizes this emerging GPU and evaluates its effectiveness in designing high-performance AI inference servers. Our study reveals that the data preprocessing stage of AI inference causes significant performance bottlenecks to MIG. To this end, we present PREBA, which is a hardware/software co-design targeting MIG inference servers. Our first proposition is an FPGA-based data preprocessing accelerator that unlocks the full potential of MIG with domain-specific acceleration of data preprocessing. The MIG inference server unleashed from preprocessing overheads is then augmented with our dynamic batching system that enables high-performance inference. PREBA is implemented end-to-end in real systems, providing a 3.7x improvement in throughput, 3.4x reduction in tail latency, 3.5x improvement in energy-efficiency, and 3.0x improvement in cost-efficiency.
- Abstract(参考訳): NVIDIAのMulti-Instance GPU(MIG)は、システム設計者が1つの大きなGPUを複数の小さなGPUスライスに再構成できる機能である。
この研究は、この新興GPUを特徴づけ、高性能なAI推論サーバを設計する上での有効性を評価する。
我々の研究は、AI推論のデータ前処理段階がMIGに大きなパフォーマンスボトルネックを引き起こすことを明らかにした。
そこで本研究では,MIG推論サーバを対象としたハードウェア/ソフトウェア共同設計であるPreBAを提案する。
最初の提案はFPGAベースのデータ前処理アクセラレータで、MIGのポテンシャルとドメイン固有のデータ前処理の加速を解放します。
プリプロセスのオーバーヘッドから解放されたMIG推論サーバは、ハイパフォーマンスな推論を可能にする動的バッチシステムで拡張される。
PreBAは実システムでエンドツーエンドに実装されており、スループットが3.7倍、テールレイテンシが3.4倍、エネルギー効率が3.5倍、コスト効率が3.0倍改善されている。
関連論文リスト
- Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [20.68731158617374]
Dovetailは、GPUにドラフトモデルをデプロイしてドラフトトークンを生成し、ターゲットモデルをCPU上で並列検証可能にするアプローチである。
Dovetailは3GBのVRAMを使用してLLaMA2-Chat-7Bで毎秒5.86トークンの推論速度を実現しており、CPUのみの推論よりも約2.77倍改善されている。
論文 参考訳(メタデータ) (2024-12-25T15:45:18Z) - Pushing the Performance Envelope of DNN-based Recommendation Systems Inference on GPUs [13.720423381263409]
我々は、埋め込みステージがGPU推論パイプラインの主要なボトルネックであり続けており、3.2倍の埋め込みのみのパフォーマンス低下につながっていることを示す。
本稿では,プラグ・アンド・プレイ方式のソフトウェアプリフェッチとL2ピンニング技術を提案し,遅延の隠蔽と低減に役立てる。
提案手法により, 埋込ステージでは最大103%, DLRM推論パイプラインでは最大77%の性能向上が図られた。
論文 参考訳(メタデータ) (2024-10-29T17:13:54Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Towards Deterministic End-to-end Latency for Medical AI Systems in
NVIDIA Holoscan [0.35516599670943777]
医療機器メーカーは、単一のプラットフォームに複数のアプリケーションを統合することで、AIとMLがもたらすメリットを最大化することを熱望している。
複数のAIアプリケーションの同時実行は、それぞれ独自の視覚化コンポーネントを持ち、予測不可能なエンドツーエンドのレイテンシをもたらす。
本稿では,センサデータと画像のストリーミングを行うリアルタイムAIシステムであるHoloscanプラットフォームにおけるこれらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-06T23:20:34Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。