論文の概要: A Scalable Multi-GPU Framework for Encrypted Large-Model Inference
- arxiv url: http://arxiv.org/abs/2512.11269v1
- Date: Fri, 12 Dec 2025 04:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.650455
- Title: A Scalable Multi-GPU Framework for Encrypted Large-Model Inference
- Title(参考訳): 大規模モデル推論のためのスケーラブルなマルチGPUフレームワーク
- Authors: Siddharth Jayashankar, Joshua Kim, Michael B. Sullivan, Wenting Zheng, Dimitrios Skarlatos,
- Abstract要約: 完全同型暗号化(FHE)を使用した暗号化AIは、強力なプライバシ保証を提供する。
最近の研究はFHEを加速するためにASICを提案しているが、計算を制約する高価な先進的な製造プロセスを必要としている。
本稿では,大規模モデル上でのFHE推論のためのマルチGPUフレームワークであるCeriumについて述べる。
- 参考スコア(独自算出の注目度): 5.966282323502589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encrypted AI using fully homomorphic encryption (FHE) provides strong privacy guarantees; but its slow performance has limited practical deployment. Recent works proposed ASICs to accelerate FHE, but require expensive advanced manufacturing processes that constrain their accessibility. GPUs are a far more accessible platform, but achieving ASIC-level performance using GPUs has remained elusive. Furthermore, state-of-the-art approaches primarily focus on small models that fit comfortably within a single device. Supporting large models such as LLMs in FHE introduces a dramatic increase in computational complexity that requires optimized GPU kernels, along with managing terabyte-scale memory footprints that far exceed the capacity of a single GPU. This paper presents Cerium, a multi-GPU framework for FHE inference on large models. Cerium integrates a domain-specific language, an optimizing compiler, and a runtime system to automatically generate high-performance GPU kernels, manage terabyte-scale memory footprints, and parallelize computation across multiple GPUs. It introduces new IR constructs, compiler passes, sparse polynomial representations, memory-efficient data layouts, and communication-aware parallelization techniques that together enable encrypted inference for models ranging from small CNNs to Llama3-8B. We build Cerium on NVIDIA GPUs and demonstrate significant performance gains. For small models, Cerium outperforms expert-written hand-optimized GPU libraries by up to 2.25 times. Cerium achieves performance competitive with state-of-the-art FHE ASICs, outright matching prior FHE ASIC CraterLake. It is the first GPU system to execute bootstrapping in under 10 milliseconds, achieving 7.5 milliseconds, and is the first to demonstrate encrypted inference for BERT-Base and Llama3-8B in 8 seconds and 134 seconds, respectively.
- Abstract(参考訳): 完全同型暗号化(FHE)を使用した暗号化AIは、強力なプライバシ保証を提供するが、その遅いパフォーマンスは実用的なデプロイメントに制限がある。
最近の研究はFHEを加速するためにASICを提案しているが、アクセシビリティを制限する高価な製造プロセスを必要としている。
GPUははるかにアクセシブルなプラットフォームだが、GPUを使用したASICレベルのパフォーマンスを実現することは、いまだ解明されていない。
さらに、最先端のアプローチは、主に単一のデバイスに快適にフィットする小さなモデルに焦点を当てている。
FHEのLLMのような大規模モデルをサポートすることで、最適化されたGPUカーネルを必要とする計算複雑性が劇的に増加し、テラバイト規模のメモリフットプリントが1つのGPUの容量を超えている。
本稿では,大規模モデル上でのFHE推論のためのマルチGPUフレームワークであるCeriumについて述べる。
Ceriumはドメイン固有言語、最適化コンパイラ、ランタイムシステムを統合して、高性能GPUカーネルを自動的に生成し、テラバイト規模のメモリフットプリントを管理し、複数のGPU間で計算を並列化する。
新しいIR構造、コンパイラパス、スパース多項式表現、メモリ効率のよいデータレイアウト、通信対応並列化技術を導入し、小さなCNNからLlama3-8Bまでのモデルの暗号化推論を可能にする。
NVIDIA GPU上でCeriumを構築し、大幅なパフォーマンス向上を示します。
小型モデルでは、Ceriumは専門家が作成した手書きGPUライブラリを最大2.25倍の性能を発揮する。
Cerium は最先端の FHE ASIC と競合し、以前の FHE ASIC CraterLake と完全に一致する。
10ミリ秒未満でブートストラップを実行し7.5ミリ秒を達成した最初のGPUシステムであり、BERT-BaseとLlama3-8Bの暗号化推論をそれぞれ8秒と134秒でデモした最初のGPUである。
関連論文リスト
- Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance [0.7340017786387767]
我々は、HPCシステム上でのベンチマークを容易にするため、QED-C Application-Oriented BenchmarksにMPIを導入する。
我々は最近のNVIDIA Grace Blackwell NVL72アーキテクチャを含む様々な相互接続パスを用いてベンチマークを行った。
GPUアーキテクチャの改善は4.5倍以上のスピードアップにつながったが、相互接続性能の進歩は16倍以上のパフォーマンス改善によるソリューションのソリューション化に大きな影響を与えている。
論文 参考訳(メタデータ) (2025-11-18T17:04:28Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - FED: Fast and Efficient Dataset Deduplication Framework with GPU Acceleration [4.499466939042501]
最近NVIDIAはGPUベースのMinHash LSH復号法を導入したが、まだ準最適である。
本稿では,GPUクラスタにMinHash LSHを最適化するGPU高速化復号化フレームワークFEDを提案する。
大規模な実験では、1.2兆のトークンの重複は4ノード16GPU環境でわずか6時間で完了する。
論文 参考訳(メタデータ) (2025-01-02T04:11:23Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Cheddar: A Swift Fully Homomorphic Encryption Library Designed for GPU Architectures [2.613335121517245]
完全なホモモルフィック暗号化(FHE)は、暗号化されたデータに対するセキュアな計算を可能にすることによって、クラウドコンピューティングをプライバシの懸念から解放する。
我々は、GPUのための高性能なFHEライブラリであるCheddarを紹介し、従来のGPU実装よりも大幅に高速化した。
論文 参考訳(メタデータ) (2024-07-17T23:49:18Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with
Fine-Grain Utilization [5.02836935036198]
本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。
提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
論文 参考訳(メタデータ) (2021-01-25T22:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。