論文の概要: Network and Compiler Optimizations for Efficient Linear Algebra Kernels in Private Transformer Inference
- arxiv url: http://arxiv.org/abs/2512.11135v1
- Date: Thu, 11 Dec 2025 21:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.580447
- Title: Network and Compiler Optimizations for Efficient Linear Algebra Kernels in Private Transformer Inference
- Title(参考訳): 自家変圧器推論における効率的な線形代数カーネルのネットワークとコンパイラ最適化
- Authors: Karthik Garimella, Negar Neda, Austin Ebel, Nandan Kumar Jha, Brandon Reagen,
- Abstract要約: ホモモルフィック暗号化(FHE)は、暗号化されたクエリを直接計算できる。
暗号化トランスフォーマー推論の実行は、プログラマが標準カーネルをFHEが提供する制約付き命令セットにマップする必要があるため、難しい。
- 参考スコア(独自算出の注目度): 2.725051134664174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) based services are primarily structured as client-server interactions, with clients sending queries directly to cloud providers that host LLMs. This approach currently compromises data privacy as all queries must be processed in the cloud and in the clear. Fully Homomorphic Encryption (FHE) is a solution to this data privacy issue by enabling computations directly upon encrypted queries. However, running encrypted transformer inference is challenging as programmers must map standard kernels to the constrained instruction set provided by FHE. In this work, we explore implementations of linear algebra kernels needed for transformer inference in FHE and understand how network optimization can help mitigate FHE costs while remaining performant. We leverage the Orion PyTorch to FHE framework to benchmark several linear algebra kernels in order to profile two linear transformation methods, packed row and BSGS, and find that BSGS outperforms packed row methods by up to $13.7 \times$ at transformer-level scales. We also incorporate network-level pruning strategies that reduce FHE runtimes of feed forward layers by up to $11.46\times$. Furthermore, we extend Orion to include ciphertext-ciphertext matrix-matrix products, a key component in the self-attention blocks. Finally, we perform a roofline analysis of FHE primitives and encrypted linear transformations and find that (SIMD encoded) implementations are memory-bound with primitives having roughly $0.1$ integer operations per byte of DRAM traffic. These findings illustrate the need for exploring alternative encoding schemes and models of computation within CKKS to unlock scalable private transformer inference. We conduct all experiments using the Orion framework which can be found at: https://github.com/baahl-nyu/orion.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのサービスは、主にクライアントとサーバのインタラクションとして構成されており、クライアントはLLMをホストするクラウドプロバイダに直接クエリを送信する。
このアプローチは現在、すべてのクエリをクラウドとクリアで処理する必要があるため、データのプライバシを侵害している。
FHE(Fully Homomorphic Encryption)は、暗号化クエリを直接計算可能にすることで、このデータプライバシ問題に対するソリューションである。
しかし、FHEが提供する制約付き命令セットに標準カーネルをマッピングしなければならないため、暗号化トランスフォーマー推論の実行は困難である。
本研究では,FHEにおける変圧器推論に必要な線形代数カーネルの実装について検討し,性能を保ちながらネットワーク最適化がFHEコストを緩和する方法について考察する。
We leverage the Orion PyTorch to FHE framework to benchmark several linear algebra kernels to profile two linear transformation method, pack row and BSGS, and found BSGS outforms filled row method at to $113.7 \times$ at transformer-level scales。
また、フィードフォワード層のFHEランタイムを最大11.46\times$で削減するネットワークレベルのプルーニング戦略も取り入れています。
さらに,Orionを拡張して,自己保持ブロックのキーコンポーネントである,暗号文・暗号文行列行列製品を含める。
最後に、FHEプリミティブと暗号化線形変換のルーフライン解析を行い、(SIMDエンコードされた)実装がメモリバウンドであり、DRAMトラフィックのバイト当たり約0.1$の整数演算を持つプリミティブであることを示す。
これらの結果は、拡張性のあるプライベートトランスフォーマー推論をアンロックするために、CKKS内の代替符号化スキームと計算モデルの探索の必要性を示している。
Orionフレームワークを使ったすべての実験は、https://github.com/baahl-nyu/orionで見ることができる。
関連論文リスト
- GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - Flexible Operator Fusion for Fast Sparse Transformer with Diverse Masking on GPU [17.61398186997867]
フレキシブルマスキングとGPU上の演算子融合によるスパーストランスフォーマーの最適化を組み込んだフレームワークであるSTOFを提案する。
STOFは,MHA計算で1.7倍,エンドツーエンド推論で1.5倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-06-06T13:54:34Z) - Scaling Efficient LLMs [0.0]
変圧器の「AIスケーリング法則」は、パラメータの数はデータのサイズと線形にスケールする必要があることを示唆している。
本稿では,リカレント変圧器と再カレントネットワークの有効性を組み合わせた再カレント変圧器を提案する。
論文 参考訳(メタデータ) (2024-02-22T18:06:19Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Factorizers for Distributed Sparse Block Codes [45.29870215671697]
分散ブロック符号(SBC)を高速かつ高精度に分解する手法を提案する。
我々の反復分解器は、しきい値に基づく非線形活性化、条件付きランダムサンプリング、および $ell_infty$-based similarity metricを導入している。
CIFAR-100, ImageNet-1K, RAVENデータセット上での4つの深層CNNアーキテクチャの実現可能性を示す。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - THE-X: Privacy-Preserving Transformer Inference with Homomorphic
Encryption [112.02441503951297]
トランスフォーマーモデルのプライバシ保護推論は、クラウドサービスユーザの要求に基づいています。
我々は、事前訓練されたモデルのプライバシ保存推論を可能にするトランスフォーマーの近似アプローチである$textitTHE-X$を紹介した。
論文 参考訳(メタデータ) (2022-06-01T03:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。