論文の概要: PipeLLM: Fast and Confidential Large Language Model Services with Speculative Pipelined Encryption
- arxiv url: http://arxiv.org/abs/2411.03357v1
- Date: Mon, 04 Nov 2024 19:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:21:57.096445
- Title: PipeLLM: Fast and Confidential Large Language Model Services with Speculative Pipelined Encryption
- Title(参考訳): PipeLLM: 投機的パイプライン暗号化を備えた高速かつ信頼性の高い大規模言語モデルサービス
- Authors: Yifan Tan, Cheng Tan, Zeyu Mi, Haibo Chen,
- Abstract要約: 暗号化は大幅な性能上のオーバーヘッドを引き起こす。
ユーザ透過型ランタイムシステムであるPipeLLMを紹介する。
我々は、暗号化を必要とするデータを予測するために、投機的パイプライン暗号を提案する。
- 参考スコア(独自算出の注目度): 5.667756833450548
- License:
- Abstract: Confidential computing on GPUs, like NVIDIA H100, mitigates the security risks of outsourced Large Language Models (LLMs) by implementing strong isolation and data encryption. Nonetheless, this encryption incurs a significant performance overhead, reaching up to 52.8 percent and 88.2 percent throughput drop when serving OPT-30B and OPT-66B, respectively. To address this challenge, we introduce PipeLLM, a user-transparent runtime system. PipeLLM removes the overhead by overlapping the encryption and GPU computation through pipelining - an idea inspired by the CPU instruction pipelining - thereby effectively concealing the latency increase caused by encryption. The primary technical challenge is that, unlike CPUs, the encryption module lacks prior knowledge of the specific data needing encryption until it is requested by the GPUs. To this end, we propose speculative pipelined encryption to predict the data requiring encryption by analyzing the serving patterns of LLMs. Further, we have developed an efficient, low-cost pipeline relinquishing approach for instances of incorrect predictions. Our experiments on NVIDIA H100 GPU show that compared with vanilla systems without confidential computing (e.g., vLLM, PEFT, and FlexGen), PipeLLM incurs modest overhead (less than 19.6 percent in throughput) across various LLM sizes, from 13B to 175B.
- Abstract(参考訳): NVIDIA H100のようなGPU上の信頼性コンピューティングは、強力なアイソレーションとデータ暗号化を実装することで、アウトソースされたLarge Language Models(LLM)のセキュリティリスクを軽減する。
OPT-30B と OPT-66B でそれぞれ52.8% と88.2% のスループット低下を達成している。
この課題に対処するために,ユーザ透過型ランタイムシステムであるPipeLLMを紹介する。
PipeLLMは、パイプライン化(CPU命令のパイプライン化にインスパイアされたアイデア)を通じて、暗号化とGPUの計算をオーバーラップすることで、オーバーヘッドをなくし、暗号化による遅延増加を効果的に隠蔽する。
主な技術的課題は、CPUとは異なり、暗号化モジュールはGPUが要求するまで暗号化を必要とする特定のデータの事前知識を欠いていることである。
そこで本研究では,LLMの動作パターンを解析して,暗号化を必要とするデータを予測するための投機的パイプライン暗号を提案する。
さらに,誤予測の事例に対して,効率的で低コストなパイプライン放棄手法を開発した。
NVIDIA H100 GPUの実験では、機密計算のないバニラシステム(例えば、vLLM、PEFT、FlexGen)と比較して、PipeLLMは、13Bから175Bまでの様々なLSMサイズで、モデムオーバーヘッド(スループットの19.6%未満)を発生させる。
関連論文リスト
- Fastrack: Fast IO for Secure ML using GPU TEEs [7.758531952461963]
GPUベースのTrusted Execution Environments (TEE)はセキュアで高性能なソリューションを提供する。
CPU間通信のオーバーヘッドは性能を著しく損なう。
本稿では、Nvidia H100 TEEプロトコルを分析し、3つの重要なオーバーヘッドを特定する。
我々は,1)直接GPU TEE通信,2)並列化認証,3)PCI-e伝送による重複復号化を最適化したFastrackを提案する。
論文 参考訳(メタデータ) (2024-10-20T01:00:33Z) - Cheddar: A Swift Fully Homomorphic Encryption Library for CUDA GPUs [2.613335121517245]
FHE(Fully homomorphic encryption)は、クラウドコンピューティングにおけるセキュリティとプライバシの問題を解決するための暗号化技術である。
FHEは、暗号化されたデータを処理するための膨大な計算オーバーヘッドを導入し、FHEワークロードは暗号化されていないワークロードよりも2~6桁遅くなりました。
本稿では,GPUのFHEライブラリであるCheddarを提案する。
論文 参考訳(メタデータ) (2024-07-17T23:49:18Z) - NTTSuite: Number Theoretic Transform Benchmarks for Accelerating Encrypted Computation [2.704681057324485]
ホモモルフィック暗号(homomorphic encryption, HE)は、暗号化されたデータを直接計算できる暗号システムである。
HEは、非常に高い計算オーバーヘッドのため、ほとんど採用されていない。
我々はNTTSuiteというベンチマークスイートを開発し、研究者がこれらのオーバーヘッドに対処できるようにした。
我々の実装は最先端の技術を30%上回っている。
論文 参考訳(メタデータ) (2024-05-18T17:44:17Z) - GME: GPU-based Microarchitectural Extensions to Accelerate Homomorphic Encryption [33.87964584665433]
ホモモルフィック暗号化(FHE)は、暗号化データを復号することなく処理することができる。
FHEは、平文データを使った同じ計算と比較して最大5桁のスローダウンを導入している。
本稿では,3つのキーとなるマイクロアーキテクチャ拡張と,現在のAMD CDNA GPUアーキテクチャへのコンパイル時間最適化を組み合わせたGMEを提案する。
論文 参考訳(メタデータ) (2023-09-20T01:50:43Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - ArctyrEX : Accelerated Encrypted Execution of General-Purpose
Applications [6.19586646316608]
FHE(Fully Homomorphic Encryption)は、計算中のユーザデータのプライバシとセキュリティを保証する暗号化手法である。
我々は、暗号化実行を高速化する新しい技術を開発し、我々のアプローチの顕著な性能上の利点を実証する。
論文 参考訳(メタデータ) (2023-06-19T15:15:41Z) - THE-X: Privacy-Preserving Transformer Inference with Homomorphic
Encryption [112.02441503951297]
トランスフォーマーモデルのプライバシ保護推論は、クラウドサービスユーザの要求に基づいています。
我々は、事前訓練されたモデルのプライバシ保存推論を可能にするトランスフォーマーの近似アプローチである$textitTHE-X$を紹介した。
論文 参考訳(メタデータ) (2022-06-01T03:49:18Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Faster Secure Data Mining via Distributed Homomorphic Encryption [108.77460689459247]
ホモモルフィック暗号化(HE)は、最近、暗号化されたフィールド上で計算を行う能力により、ますます注目を集めている。
本稿では,スケーリング問題の解決に向けて,新しい分散HEベースのデータマイニングフレームワークを提案する。
各種データマイニングアルゴリズムとベンチマークデータセットを用いて,新しいフレームワークの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2020-06-17T18:14:30Z) - CryptoSPN: Privacy-preserving Sum-Product Network Inference [84.88362774693914]
総生産ネットワーク(SPN)のプライバシ保護のためのフレームワークを提案する。
CryptoSPNは、中規模のSPNに対して秒の順序で高効率で正確な推論を行う。
論文 参考訳(メタデータ) (2020-02-03T14:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。