論文の概要: AEGIS: Scaling Long-Sequence Homomorphic Encrypted Transformer Inference via Hybrid Parallelism on Multi-GPU Systems
- arxiv url: http://arxiv.org/abs/2604.03425v1
- Date: Fri, 03 Apr 2026 19:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.568862
- Title: AEGIS: Scaling Long-Sequence Homomorphic Encrypted Transformer Inference via Hybrid Parallelism on Multi-GPU Systems
- Title(参考訳): AEGIS:マルチGPUシステム上でのハイブリッド並列化による長周期同型暗号化トランスフォーマ推論のスケーリング
- Authors: Zhaoting Gong, Ran Ran, Fan Yao, Wujie Wen,
- Abstract要約: AEGISは、長期暗号化トランスフォーマー推論のためのアプリケーション暗号化ガイド推論システムである。
フィードフォワードネットワークにおいて、GPU間通信を57.9%削減する。
最大96.62%のスケーリング効率、3.86倍のエンドツーエンドスピードアップ、69.1%のデバイス毎のメモリ削減を実現している。
- 参考スコア(独自算出の注目度): 22.26887231291305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fully Homomorphic Encryption (FHE) enables privacy-preserving Transformer inference, but long-sequence encrypted Transformers quickly exceed single-GPU memory capacity because encoded weights are already large and encrypted activations grow rapidly with sequence length. Multi-GPU execution therefore becomes unavoidable, yet scaling remains challenging because communication is jointly induced by application-level aggregation and encryption-level RNS coupling. Existing approaches either synchronize between devices frequently or replicate encrypted tensors across devices, leading to excessive communication and latency. We present AEGIS, an Application-Encryption Guided Inference System for scalable long-sequence encrypted Transformer inference on multi-GPU platforms. AEGIS derives device placement from ciphertext dependencies jointly induced by Transformer dataflow and CKKS polynomial coupling, co-locating modulus-coherent and token-coherent data so that communication is introduced only when application dependencies require it, while reordering polynomial operators to overlap the remaining collectives with computation. On 2048-token inputs, AEGIS reduces inter-GPU communication by up to 57.9% in feed-forward networks and 81.3% in self-attention versus prior state-of-the-art designs. On four GPUs, it achieves up to 96.62% scaling efficiency, 3.86x end-to-end speedup, and 69.1% per-device memory reduction. These results establish coordinated application-encryption parallelism as a practical foundation for scalable homomorphic Transformer inference.
- Abstract(参考訳): FHE(Fully Homomorphic Encryption)は、プライバシを保存するTransformer推論を可能にするが、符号化された重みはすでに大きく、暗号化されたアクティベーションはシーケンス長とともに急速に増加するため、長シーケンス暗号化トランスフォーマーはシングルGPUメモリ容量を超える。
したがって、マルチGPUの実行は避けられなくなるが、通信はアプリケーションレベルの集約と暗号化レベルのRSS結合によって共同で引き起こされるため、スケーリングは依然として困難である。
既存のアプローチでは、デバイス間で頻繁に同期するか、デバイス間で暗号化テンソルを複製する。
AEGISは、マルチGPUプラットフォーム上でスケーラブルな長シーケンス暗号化トランスフォーマー推論のためのアプリケーション暗号化ガイド推論システムである。
AEGISは、TransformerデータフローとCKKS多項式結合、共位置モジュラーコヒーレントおよびトークンコヒーレントデータによって共同で誘導される暗号文依存性からデバイス配置を導出し、アプリケーション依存が要求される場合にのみ通信を導入し、残りの集合を計算と重なり合うように多項式演算子を並べ替える。
2048年の入力では、AEGISはGPU間の通信をフィードフォワードネットワークで57.9%、自己注意で81.3%削減した。
4つのGPUでは、最大96.62%のスケーリング効率、3.86倍のエンドツーエンドのスピードアップ、69.1%のデバイス毎のメモリ削減を実現している。
これらの結果は、スケーラブルな準同型トランスフォーマー推論の実践的基盤として、協調的なアプリケーション暗号化並列性を確立する。
関連論文リスト
- StreamFusion: Scalable Sequence Parallelism for Distributed Inference of Diffusion Transformers on GPUs [8.844450350128362]
ディフュージョントランスフォーマー(DiT)は、高品質の画像やビデオ生成において、ますます普及している。
StreamFusionは、トポロジー対応の効率的なDiTサービスエンジンである。
私たちの実験では、StreamFusionが最先端のアプローチを平均1.35タイム(最大1.77タイム)で上回ります。
論文 参考訳(メタデータ) (2026-01-28T05:42:07Z) - GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - A Scalable Architecture for Efficient Multi-bit Fully Homomorphic Encryption [1.4174227043241145]
本稿では,マルチビットTFHE計算の効率化を目的としたハードウェアアクセラレータTaurusを紹介する。
Taurusは、新しいFFTユニットを活用し、キー再利用戦略を通じてメモリ帯域幅を最適化することで、最大10ビットの暗号文をサポートする。
実験の結果,TaurusはCPU上で最大2600倍の高速化,GPU上で1200倍の高速化を実現した。
論文 参考訳(メタデータ) (2025-09-16T05:00:57Z) - Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。
提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。
実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-24T13:00:44Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Ultra-Long Sequence Distributed Transformer [10.263668150008316]
長いシーケンスで訓練されたトランスフォーマーモデルは、しばしば短いシーケンスよりも高い精度を達成する。
既存のロングシーケンストレーニングの方法は、制限されたスピードアップとメモリ削減を提供する。
本稿では,新しい分散学習手法であるLong Short-Sequence Transformerを提案する。
論文 参考訳(メタデータ) (2023-11-04T11:38:53Z) - THE-X: Privacy-Preserving Transformer Inference with Homomorphic
Encryption [112.02441503951297]
トランスフォーマーモデルのプライバシ保護推論は、クラウドサービスユーザの要求に基づいています。
我々は、事前訓練されたモデルのプライバシ保存推論を可能にするトランスフォーマーの近似アプローチである$textitTHE-X$を紹介した。
論文 参考訳(メタデータ) (2022-06-01T03:49:18Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。