Fugu-MT 論文翻訳(概要): Confidential Computing on nVIDIA H100 GPU: A Performance Benchmark Study

論文の概要: Confidential Computing on nVIDIA H100 GPU: A Performance Benchmark Study

arxiv url: http://arxiv.org/abs/2409.03992v2
Date: Fri, 13 Sep 2024 04:54:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 18:46:54.883825
Title: Confidential Computing on nVIDIA H100 GPU: A Performance Benchmark Study
Title（参考訳）: nVIDIA H100 GPUの信頼性計算:パフォーマンスベンチマーク
Authors: Jianwei Zhu, Hang Yin, Peng Deng, Shunfan Zhou,
Abstract要約: 様々な大言語モデル(LLM)推論タスクにTEEモードで導入されたオーバーヘッドをベンチマークする。以上の結果から,GPUには計算オーバーヘッドが最小限に抑えられているものの,データ転送による性能上のペナルティが主な原因であることが示唆された。
参考スコア（独自算出の注目度）: 12.129664452860446
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This report evaluates the performance impact of enabling Trusted Execution Environments (TEE) on nVIDIA H100 GPUs for large language model (LLM) inference tasks. We benchmark the overhead introduced by TEE mode across various LLMs and token lengths, with a particular focus on the bottleneck caused by CPU-GPU data transfers via PCIe. Our results indicate that while there is minimal computational overhead within the GPU, the overall performance penalty is primarily attributable to data transfer. For the majority of typical LLM queries, the overhead remains below 5%, with larger models and longer sequences experiencing nearly zero overhead.
Abstract（参考訳）: 本稿では,大規模言語モデル (LLM) 推論タスクにおいて,Trusted Execution Environments (TEE) が nVIDIA H100 GPU に与える影響を評価する。 PCIeを介してCPU-GPUデータ転送によって引き起こされるボトルネックに特に焦点をあて、様々なLLMおよびトークン長にわたってTEEモードによって導入されたオーバーヘッドをベンチマークする。以上の結果から,GPUには計算オーバーヘッドが最小限に抑えられているものの,データ転送による性能上のペナルティが主な原因であることが示唆された。典型的なLLMクエリの大部分では、オーバーヘッドは5%以下であり、大きなモデルと長いシーケンスではオーバーヘッドはほぼゼロである。

関連論文リスト

Can Large Language Models Predict Parallel Code Performance? [1.5221392705893568]
本稿では,Large Language Models (LLM) がハードウェアに依存しないGPU性能予測に代替的なアプローチを提供するかどうかを考察する。 LLMはRooflineモデルについて強く理解しており、明示的なプロファイリングデータを備えた場合、100%の分類精度を達成する。以上の結果から,より優れたデータセットと迅速な戦略により,LLMはHPCルーフライン解析および性能ポータビリティのための実用的なツールとなる可能性が示唆された。
論文参考訳（メタデータ） (2025-05-06T21:41:20Z)
Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures [3.2645124275315163]
大規模言語モデル(LLM)ベースの推論ワークロードは、データセンターのコストとリソース利用をますます支配している。本稿では, 疎結合(PCIe A100/H100) および密結合(GH200) システムにおける推論挙動の詳細な解析を行う。
論文参考訳（メタデータ） (2025-04-16T04:02:39Z)
Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
Characterization of GPU TEE Overheads in Distributed Data Parallel ML Training [7.236249885667945]
信頼できるコンピューティング(CC)または信頼できる実行エンクレーブ(TEE)は、クラウドでセキュアなコンピューティングを実現するための最も一般的なアプローチである。 NVIDIAによるGPU TEEの導入により、モデルウェイトやデータをクラウドプロバイダにリークすることなく、マシンラーニング(ML)モデルをトレーニングすることが可能になった。本稿では,GPU TEEを用いた分散データ並列(DDP)MLトレーニングの実行に伴う性能オーバーヘッドについて,詳細な解析を行った。
論文参考訳（メタデータ） (2025-01-20T22:23:50Z)
DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。 Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文参考訳（メタデータ） (2024-12-16T07:59:21Z)
Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation [7.204881999658682]
大規模言語モデル(LLM)の推論は計算的に要求される。自動回帰デコーディングのコストを削減するため、キーバリュー(KV)キャッシングは中間アクティベーションを格納するために使用される。 KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。コスト効率のよい代替手段は、KVキャッシュをCPUメモリにオフロードすることであり、これはGPUメモリの圧力を軽減するが、ボトルネックをCPUとGPU間のPCIe接続の限られた帯域にシフトさせる。
論文参考訳（メタデータ） (2024-11-26T04:03:14Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs [3.7101665559244874]
本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
論文参考訳（メタデータ） (2024-03-26T11:38:39Z)
Hybrid quantum programming with PennyLane Lightning on HPC platforms [0.0]
PennyLaneのLightningスイートは、CPU、GPU、HPCネイティブアーキテクチャとワークロードをターゲットにした高性能なステートベクタシミュレータのコレクションである。 QAOA、VQE、合成ワークロードなどの量子アプリケーションは、サポート対象の古典的コンピューティングアーキテクチャを実証するために実装されている。
論文参考訳（メタデータ） (2024-03-04T22:01:03Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Communication-Efficient Graph Neural Networks with Probabilistic Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文参考訳（メタデータ） (2023-05-04T21:04:01Z)
EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。 EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2022-05-29T20:07:23Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文参考訳（メタデータ） (2020-03-30T14:16:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。