論文の概要: Confidential LLM Inference: Performance and Cost Across CPU and GPU TEEs
- arxiv url: http://arxiv.org/abs/2509.18886v1
- Date: Tue, 23 Sep 2025 10:36:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.816476
- Title: Confidential LLM Inference: Performance and Cost Across CPU and GPU TEEs
- Title(参考訳): Confidential LLM推論:CPUとGPUのTEE間でのパフォーマンスとコスト
- Authors: Marcin Chrapek, Marcin Copik, Etienne Mettaz, Torsten Hoefler,
- Abstract要約: 大規模言語モデル(LLM)は、収束したクラウドと高性能コンピューティングインフラストラクチャにますますデプロイされている。
LLMが機密入力を処理するため、セキュリティ要件が高められ、医療や金融といったプライバシーに敏感な分野への採用が遅れる。
エンド・ツー・エンドのLSM推論のためのソリューションとして,Trusted Execution Environments (TEEs)を提案する。
- 参考スコア(独自算出の注目度): 16.49726695421423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed on converged Cloud and High-Performance Computing (HPC) infrastructure. However, as LLMs handle confidential inputs and are fine-tuned on costly, proprietary datasets, their heightened security requirements slow adoption in privacy-sensitive sectors such as healthcare and finance. We investigate methods to address this gap and propose Trusted Execution Environments (TEEs) as a solution for securing end-to-end LLM inference. We validate their practicality by evaluating these compute-intensive workloads entirely within CPU and GPU TEEs. On the CPU side, we conduct an in-depth study running full Llama2 inference pipelines (7B, 13B, 70B) inside Intel's TDX and SGX, accelerated by Advanced Matrix Extensions (AMX). We derive 12 insights, including that across various data types, batch sizes, and input lengths, CPU TEEs impose under 10% throughput and 20% latency overheads, further reduced by AMX. We run LLM inference on NVIDIA H100 Confidential Compute GPUs, contextualizing our CPU findings and observing throughput penalties of 4-8% that diminish as batch and input sizes grow. By comparing performance, cost, and security trade-offs, we show how CPU TEEs can be more cost-effective or secure than their GPU counterparts. To our knowledge, our work is the first to comprehensively demonstrate the performance and practicality of modern TEEs across both CPUs and GPUs for enabling confidential LLMs (cLLMs).
- Abstract(参考訳): 大規模言語モデル(LLM)は、収束したクラウドとハイパフォーマンスコンピューティング(HPC)インフラストラクチャにますますデプロイされている。
しかし、LLMが機密入力を処理し、費用がかかるプロプライエタリなデータセットに微調整されているため、セキュリティ要件が高められ、医療や金融といったプライバシーに敏感な分野への採用が遅れている。
本稿では,このギャップに対処する手法を検討し,エンドツーエンドのLLM推論のためのソリューションとしてTrusted Execution Environments(TEEs)を提案する。
これらの計算集約的なワークロードを、CPUとGPUのTEE内で完全に評価することで、それらの実用性を検証する。
CPU側では、IntelのTDXとSGX内で完全なLlama2推論パイプライン(7B,13B,70B)を実行し、AMX(Advanced Matrix Extensions)によって加速される。
さまざまなデータタイプ、バッチサイズ、入力長を含む12の洞察を導き、CPU TEEは10%のスループットと20%のレイテンシオーバーヘッドを課し、さらにAMXによって削減されます。
我々はNVIDIA H100 Confidential Compute GPU上でLSM推論を実行し、CPUの発見をコンテキスト化し、バッチや入力サイズが大きくなるにつれて減少する4~8%のスループットのペナルティを観察する。
パフォーマンス、コスト、セキュリティのトレードオフを比較することで、CPU TEEがGPUよりもコスト効率が高く、安全であることを示す。
我々の知る限り、我々の研究は、CPUとGPUの両方にわたって最新のTEEの性能と実用性を包括的に実証し、秘密のLLM(cLLM)を可能にする最初のものである。
関連論文リスト
- Characterization of GPU TEE Overheads in Distributed Data Parallel ML Training [7.236249885667945]
信頼できるコンピューティング(CC)または信頼できる実行エンクレーブ(TEE)は、クラウドでセキュアなコンピューティングを実現するための最も一般的なアプローチである。
NVIDIAによるGPU TEEの導入により、モデルウェイトやデータをクラウドプロバイダにリークすることなく、マシンラーニング(ML)モデルをトレーニングすることが可能になった。
本稿では,GPU TEEを用いた分散データ並列(DDP)MLトレーニングの実行に伴う性能オーバーヘッドについて,詳細な解析を行った。
論文 参考訳(メタデータ) (2025-01-20T22:23:50Z) - Fastrack: Fast IO for Secure ML using GPU TEEs [7.758531952461963]
GPUベースのTrusted Execution Environments (TEE)はセキュアで高性能なソリューションを提供する。
CPU間通信のオーバーヘッドは性能を著しく損なう。
本稿では、Nvidia H100 TEEプロトコルを分析し、3つの重要なオーバーヘッドを特定する。
我々は,1)直接GPU TEE通信,2)並列化認証,3)PCI-e伝送による重複復号化を最適化したFastrackを提案する。
論文 参考訳(メタデータ) (2024-10-20T01:00:33Z) - Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文 参考訳(メタデータ) (2024-10-12T09:21:45Z) - TensorTEE: Unifying Heterogeneous TEE Granularity for Efficient Secure Collaborative Tensor Computing [13.983627699836376]
既存の異種TEE設計は、CPUとNPU間のメモリの粒度が微妙で異なるため、協調コンピューティングでは非効率である。
安全な協調計算のための統合テンソル・グラニュラリティ異種TEEを提案する。
その結果、TEEは、既存の作業と比べて、Large Language Model(LLM)トレーニングワークロードのパフォーマンスを4.0倍改善していることがわかった。
論文 参考訳(メタデータ) (2024-07-12T00:35:18Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。