論文の概要: Fastrack: Fast IO for Secure ML using GPU TEEs
- arxiv url: http://arxiv.org/abs/2410.15240v1
- Date: Sun, 20 Oct 2024 01:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:15:31.521373
- Title: Fastrack: Fast IO for Secure ML using GPU TEEs
- Title(参考訳): Fastrack: GPU TEEを使用したセキュアMLのための高速IO
- Authors: Yongqin Wang, Rachit Rajat, Jonghyun Lee, Tingting Tang, Murali Annavaram,
- Abstract要約: GPUベースのTrusted Execution Environments (TEE)はセキュアで高性能なソリューションを提供する。
CPU間通信のオーバーヘッドは性能を著しく損なう。
本稿では、Nvidia H100 TEEプロトコルを分析し、3つの重要なオーバーヘッドを特定する。
我々は,1)直接GPU TEE通信,2)並列化認証,3)PCI-e伝送による重複復号化を最適化したFastrackを提案する。
- 参考スコア(独自算出の注目度): 7.758531952461963
- License:
- Abstract: As cloud-based ML expands, ensuring data security during training and inference is critical. GPU-based Trusted Execution Environments (TEEs) offer secure, high-performance solutions, with CPU TEEs managing data movement and GPU TEEs handling authentication and computation. However, CPU-to-GPU communication overheads significantly hinder performance, as data must be encrypted, authenticated, decrypted, and verified, increasing costs by 12.69 to 33.53 times. This results in GPU TEE inference becoming 54.12% to 903.9% slower and training 10% to 455% slower than non-TEE systems, undermining GPU TEE advantages in latency-sensitive applications. This paper analyzes Nvidia H100 TEE protocols and identifies three key overheads: 1) redundant CPU re-encryption, 2) limited authentication parallelism, and 3) unnecessary operation serialization. We propose Fastrack, optimizing with 1) direct GPU TEE communication, 2) parallelized authentication, and 3) overlapping decryption with PCI-e transmission. These optimizations cut communication costs and reduce inference/training runtime by up to 84.6%, with minimal overhead compared to non-TEE systems.
- Abstract(参考訳): クラウドベースのMLが拡大するにつれて、トレーニングと推論の間のデータセキュリティの確保が重要になる。
GPUベースのTrusted Execution Environments (TEE)はセキュアで高性能なソリューションを提供する。
しかし、CPU間通信のオーバーヘッドは、データが暗号化され、認証され、復号化され、検証され、コストが12.69倍から33.53倍に増加するため、パフォーマンスを著しく損なう。
これにより、GPU TEE推論は54.12%から903.9%遅くなり、非TEEシステムよりも10%から455%遅くトレーニングされ、レイテンシに敏感なアプリケーションではGPU TEEの優位性が損なわれる。
本稿では、Nvidia H100 TEEプロトコルを分析し、3つの重要なオーバーヘッドを特定する。
1) 冗長CPU再暗号化
2)限定的な認証並列化,及び
3) 不要な操作シリアライゼーション。
我々はFastrackを提案し、最適化する。
1)直接GPU TEE通信。
2)並列化認証,及び
3) PCI-e送信と重複復号化。
これらの最適化は通信コストを削減し、推論/トレーニングランタイムを最大84.6%削減した。
関連論文リスト
- Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation [7.204881999658682]
大規模言語モデル(LLM)の推論は計算的に要求される。
自動回帰デコーディングのコストを削減するため、キーバリュー(KV)キャッシングは中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
コスト効率のよい代替手段は、KVキャッシュをCPUメモリにオフロードすることであり、これはGPUメモリの圧力を軽減するが、ボトルネックをCPUとGPU間のPCIe接続の限られた帯域にシフトさせる。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - FusionANNS: An Efficient CPU/GPU Cooperative Processing Architecture for Billion-scale Approximate Nearest Neighbor Search [9.724743360108835]
近似近接探索(ANNS)がデータベースとAIインフラストラクチャの重要なコンポーネントとして登場した。
数十億のデータセットを対象とした高スループット,低レイテンシ,低コスト,高精度なANNSシステムであるFusionANNSを提案する。
本稿では、CPUとGPU間のデータスワップを回避するための多層インデックス化、不要なI/Oや計算をなくすための再ランク付け、I/O効率をさらに向上するための冗長なI/Oデデューズという3つの新しい設計を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:14:01Z) - GME: GPU-based Microarchitectural Extensions to Accelerate Homomorphic Encryption [33.87964584665433]
ホモモルフィック暗号化(FHE)は、暗号化データを復号することなく処理することができる。
FHEは、平文データを使った同じ計算と比較して最大5桁のスローダウンを導入している。
本稿では,3つのキーとなるマイクロアーキテクチャ拡張と,現在のAMD CDNA GPUアーキテクチャへのコンパイル時間最適化を組み合わせたGMEを提案する。
論文 参考訳(メタデータ) (2023-09-20T01:50:43Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。
本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:11:20Z) - Efficient Incremental Text-to-Speech on GPUs [1.35346836945515]
Instant Request Pooling と Module-wise Dynamic を用いて,GPU 上でリアルタイムインクリメンタル TTS を実行する方法を提案する。
提案手法は,1つのNVIDIA A10 GPU上で,100QPS以下で80ms未満の低レイテンシで高品質な音声を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-11-25T07:43:45Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - AxoNN: An asynchronous, message-driven parallel framework for
extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。
トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文 参考訳(メタデータ) (2021-10-25T14:43:36Z) - Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。
本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。
各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2020-06-17T18:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。