論文の概要: Confidential Computing on nVIDIA H100 GPU: A Performance Benchmark Study
- arxiv url: http://arxiv.org/abs/2409.03992v1
- Date: Fri, 6 Sep 2024 02:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:58:39.062243
- Title: Confidential Computing on nVIDIA H100 GPU: A Performance Benchmark Study
- Title(参考訳): nVIDIA H100 GPUの信頼性計算:パフォーマンスベンチマーク
- Authors: Jianwei Zhu, Hang Yin, Shunfan Zhou,
- Abstract要約: 本稿では,大規模言語モデル (LLM) 推論タスクにおいて,Trusted Execution Environments がNVIDIA H100 GPU に与える影響を評価する。
さまざまなモデルとトークン長にわたって、TEEモードで導入されたオーバーヘッドをベンチマークします。
ほとんどの典型的なLCMクエリでは、オーバーヘッドは5%以下であり、大きなモデルと長いシーケンスがほぼゼロに近いオーバーヘッドを経験している。
- 参考スコア(独自算出の注目度): 12.692179675227626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report evaluates the performance impact of enabling Trusted Execution Environments (TEE) on NVIDIA H100 GPUs for large language model (LLM) inference tasks. We benchmark the overhead introduced by TEE mode across various models and token lengths, focusing on the bottleneck caused by CPU-GPU data transfers via PCIe. Our results show that while there is minimal computational overhead within the GPU, the overall performance penalty is primarily due to data transfer. For most typical LLM queries, the overhead remains below 5%, with larger models and longer sequences experiencing near-zero overhead.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)推論タスクのNVIDIA H100 GPUに対するTrusted Execution Environments(TEE)の実現によるパフォーマンスへの影響を評価する。
我々は、PCIeを介してCPU-GPUデータ転送によって引き起こされるボトルネックに着目し、様々なモデルとトークン長にわたってTEEモードによって導入されたオーバーヘッドをベンチマークする。
以上の結果から,GPUには計算オーバーヘッドが最小限に抑えられているものの,データ転送によるパフォーマンス上のペナルティが主な原因であることが示唆された。
ほとんどの典型的なLCMクエリでは、オーバーヘッドは5%以下であり、大きなモデルと長いシーケンスがほぼゼロに近いオーバーヘッドを経験している。
関連論文リスト
- Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation [7.204881999658682]
大規模言語モデル(LLM)の推論は計算的に要求される。
自動回帰デコーディングのコストを削減するため、キーバリュー(KV)キャッシングは中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
コスト効率のよい代替手段は、KVキャッシュをCPUメモリにオフロードすることであり、これはGPUメモリの圧力を軽減するが、ボトルネックをCPUとGPU間のPCIe接続の限られた帯域にシフトさせる。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs [3.7101665559244874]
本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。
これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-26T11:38:39Z) - Hybrid quantum programming with PennyLane Lightning on HPC platforms [0.0]
PennyLaneのLightningスイートは、CPU、GPU、HPCネイティブアーキテクチャとワークロードをターゲットにした高性能なステートベクタシミュレータのコレクションである。
QAOA、VQE、合成ワークロードなどの量子アプリケーションは、サポート対象の古典的コンピューティングアーキテクチャを実証するために実装されている。
論文 参考訳(メタデータ) (2024-03-04T22:01:03Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。