論文の概要: GPU Acceleration of TFHE-Based High-Precision Nonlinear Layers for Encrypted LLM Inference
- arxiv url: http://arxiv.org/abs/2604.04783v1
- Date: Mon, 06 Apr 2026 15:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.260148
- Title: GPU Acceleration of TFHE-Based High-Precision Nonlinear Layers for Encrypted LLM Inference
- Title(参考訳): 暗号化LDM推論のためのTFHEに基づく高精度非線形層のGPU高速化
- Authors: Guoci Chen, Xiurui Pan, Qiao Li, Bo Mao, Congming Gao, Chengying Huan, Mingzhe Zhang, Jie Zhang,
- Abstract要約: ホモモルフィック暗号化(FHE)は、暗号化されたデータの計算を可能にする。
CKKSベースのアプローチでは、目標精度が増加するとコストがかかる高次近似が必要となる。
本稿では,高速TFHEに基づく非線形LCM層評価のためのGPUアクセラレーションフレームワークであるemphTIGERを提案する。
- 参考スコア(独自算出の注目度): 7.653967622069466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying large language models (LLMs) as cloud services raises privacy concerns as inference may leak sensitive data. Fully Homomorphic Encryption (FHE) allows computation on encrypted data, but current FHE methods struggle with efficient and precise nonlinear function evaluation. Specifically, CKKS-based approaches require high-degree polynomial approximations, which are costly when target precision increases. Alternatively, TFHE's Programmable Bootstrapping (PBS) outperforms CKKS by offering exact lookup-table evaluation. But it lacks high-precision implementations of LLM nonlinear layers and underutilizes GPU resources. We propose \emph{TIGER}, the first GPU-accelerated framework for high-precision TFHE-based nonlinear LLM layer evaluation. TIGER offers: (1) GPU-optimized WoP-PBS method combined with numerical algorithms to surpass native lookup-table precision limits on nonlinear functions; (2) high-precision and efficient implementations of key nonlinear layers, enabling practical encrypted inference; (3) batch-driven design exploiting inter-input parallelism to boost GPU efficiency. TIGER achieves 7.17$\times$, 16.68$\times$, and 17.05$\times$ speedups over a CPU baseline for GELU, Softmax, and LayerNorm, respectively.
- Abstract(参考訳): クラウドサービスとして大きな言語モデル(LLM)をデプロイすると、推論が機密データを漏洩する可能性があるため、プライバシの懸念が高まる。
完全同型暗号化(FHE)は、暗号化されたデータの計算を可能にするが、現在のFHE法は、効率的で正確な非線形関数評価に苦慮している。
具体的には、CKKSベースのアプローチは高次多項式近似を必要とする。
あるいは、TFHEのProgrammable Bootstrapping (PBS)は、正確なルックアップテーブル評価を提供することでCKKSを上回っている。
しかし、LLM非線形層の高精度実装が欠如しており、GPUリソースを過小評価している。
本稿では,高速TFHEに基づく非線形LLM層評価のためのGPUアクセラレーションフレームワークであるemph{TIGER}を提案する。
TIGERは,(1)GPU最適化WoP-PBS法と数値アルゴリズムを組み合わせることで,非線形関数のネイティブなルックアップテーブルの精度限界を超えること,(2)鍵非線形層の高精度かつ効率的な実装により,実用的な暗号化推論が可能であること,(3)入力並列性を利用したバッチ駆動設計によりGPU効率を向上すること,を提供する。
TIGERは7.17$\times$、16.68$\times$、17.05$\times$をGELU、Softmax、LayerNormのCPUベースラインでそれぞれ高速化する。
関連論文リスト
- $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving [2.6336040306318274]
LLM(Large Language Model)アダプタは、低コストのモデル特殊化を可能にする。
LLMアダプタは、数百のアダプタを同時にホストしなければならない分散サービスシステムにおいて、複雑なキャッシュとスケジューリングの課題を導入する。
本稿では,最小GPU数でワークロードを処理するアダプタ配置を計算したデータ駆動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-27T14:22:51Z) - FHECore: Rethinking GPU Microarchitecture for Fully Homomorphic Encryption [2.7777199166440827]
FHE(Fully Homomorphic Encryption)は、暗号化されたデータを直接計算できるが、膨大な計算とメモリオーバーヘッドを発生させる。
カスタムアクセラレーターはこれらのコストを軽減することができるが、市場投入までの長い時間とFHEアルゴリズムの急速な進化は、長期的な妥当性を脅かす。
本稿では,GPUのストリームマルチプロセッサに直接統合された特殊な機能ユニットであるFHECoreを提案する。
論文 参考訳(メタデータ) (2026-02-10T02:55:10Z) - Spotlight Attention: Towards Efficient LLM Generation via Non-linear Hashing-based KV Cache Retrieval [67.21678698740267]
本研究では,クエリやキーの埋め込み分布を最適化するために,非線形ハッシュ関数を利用する新しい手法であるSpotlight Attentionを紹介する。
また、Bradley-Terryランキングに基づく損失を利用して、軽量で安定したトレーニングフレームワークを開発する。
論文 参考訳(メタデータ) (2025-08-27T10:11:27Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - Can Large Language Models Predict Parallel Code Performance? [1.5221392705893568]
本稿では,Large Language Models (LLM) がハードウェアに依存しないGPU性能予測に代替的なアプローチを提供するかどうかを考察する。
LLMはRooflineモデルについて強く理解しており、明示的なプロファイリングデータを備えた場合、100%の分類精度を達成する。
以上の結果から,より優れたデータセットと迅速な戦略により,LLMはHPCルーフライン解析および性能ポータビリティのための実用的なツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-06T21:41:20Z) - MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。