論文の概要: Confidential Computing on nVIDIA H100 GPU: A Performance Benchmark Study
- arxiv url: http://arxiv.org/abs/2409.03992v2
- Date: Fri, 13 Sep 2024 04:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 18:46:54.883825
- Title: Confidential Computing on nVIDIA H100 GPU: A Performance Benchmark Study
- Title(参考訳): nVIDIA H100 GPUの信頼性計算:パフォーマンスベンチマーク
- Authors: Jianwei Zhu, Hang Yin, Peng Deng, Shunfan Zhou,
- Abstract要約: 様々な大言語モデル(LLM)推論タスクにTEEモードで導入されたオーバーヘッドをベンチマークする。
以上の結果から,GPUには計算オーバーヘッドが最小限に抑えられているものの,データ転送による性能上のペナルティが主な原因であることが示唆された。
- 参考スコア(独自算出の注目度): 12.129664452860446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report evaluates the performance impact of enabling Trusted Execution Environments (TEE) on nVIDIA H100 GPUs for large language model (LLM) inference tasks. We benchmark the overhead introduced by TEE mode across various LLMs and token lengths, with a particular focus on the bottleneck caused by CPU-GPU data transfers via PCIe. Our results indicate that while there is minimal computational overhead within the GPU, the overall performance penalty is primarily attributable to data transfer. For the majority of typical LLM queries, the overhead remains below 5%, with larger models and longer sequences experiencing nearly zero overhead.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) 推論タスクにおいて,Trusted Execution Environments (TEE) が nVIDIA H100 GPU に与える影響を評価する。
PCIeを介してCPU-GPUデータ転送によって引き起こされるボトルネックに特に焦点をあて、様々なLLMおよびトークン長にわたってTEEモードによって導入されたオーバーヘッドをベンチマークする。
以上の結果から,GPUには計算オーバーヘッドが最小限に抑えられているものの,データ転送による性能上のペナルティが主な原因であることが示唆された。
典型的なLLMクエリの大部分では、オーバーヘッドは5%以下であり、大きなモデルと長いシーケンスではオーバーヘッドはほぼゼロである。
関連論文リスト
- vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - LLMem: Estimating GPU Memory Usage for Fine-Tuning Pre-Trained LLMs [4.536118764799076]
ハードウェアに制限がある微調整済みの大規模言語モデルでは、GPUメモリの制約が問題となっている。
LLMemは、分散微調整法を適用する際のGPUメモリ消費を推定するソリューションである。
LLMemは1つのGPU上でのピークGPUメモリ使用量を正確に推定し、エラー率は最大1.6%であることを示す。
論文 参考訳(メタデータ) (2024-04-16T22:11:35Z) - Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs [3.7101665559244874]
本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。
これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-26T11:38:39Z) - A Detailed Historical and Statistical Analysis of the Influence of
Hardware Artifacts on SPEC Integer Benchmark Performance [0.4427733388120187]
標準性能評価コーポレーション(SPEC)のCPUベンチマークは、何十年もの間、コンピュータ性能の指標として広く使われてきた。
過去の取り組みでは、SPECベンチマークスイートが時間とともにどのように経験的に進化したのか、というような質問に対する回答は提供されていない。
これらの質問に対する回答は,コンピュータシステムパフォーマンスの将来に対する洞察を与えてくれるだろうか?
論文 参考訳(メタデータ) (2024-01-30T02:30:22Z) - Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文 参考訳(メタデータ) (2023-10-19T17:09:06Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Benchmarking Edge Computing Devices for Grape Bunches and Trunks
Detection using Accelerated Object Detection Single Shot MultiBox Deep
Learning Models [2.1922186455344796]
この研究は、オブジェクト検出のための異なるプラットフォームのパフォーマンスをリアルタイムでベンチマークする。
著者らは、自然なVineデータセットを使用して、RetinaNet ResNet-50を微調整した。
論文 参考訳(メタデータ) (2022-11-21T17:02:33Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Efficient Visual Tracking via Hierarchical Cross-Attention Transformer [82.92565582642847]
本稿では,HCAT と呼ばれる階層型クロスアテンショントランスを用いた効率的な追跡手法を提案する。
当社のモデルは、GPUで約195fps、CPUで45fps、NVidia Jetson AGX XavierのエッジAIプラットフォームで55fpsで動作します。
論文 参考訳(メタデータ) (2022-03-25T09:45:27Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。