論文の概要: Network and Compiler Optimizations for Efficient Linear Algebra Kernels in Private Transformer Inference
- arxiv url: http://arxiv.org/abs/2512.11135v1
- Date: Thu, 11 Dec 2025 21:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.580447
- Title: Network and Compiler Optimizations for Efficient Linear Algebra Kernels in Private Transformer Inference
- Title(参考訳): 自家変圧器推論における効率的な線形代数カーネルのネットワークとコンパイラ最適化
- Authors: Karthik Garimella, Negar Neda, Austin Ebel, Nandan Kumar Jha, Brandon Reagen,
- Abstract要約: ホモモルフィック暗号化(FHE)は、暗号化されたクエリを直接計算できる。
暗号化トランスフォーマー推論の実行は、プログラマが標準カーネルをFHEが提供する制約付き命令セットにマップする必要があるため、難しい。
- 参考スコア(独自算出の注目度): 2.725051134664174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) based services are primarily structured as client-server interactions, with clients sending queries directly to cloud providers that host LLMs. This approach currently compromises data privacy as all queries must be processed in the cloud and in the clear. Fully Homomorphic Encryption (FHE) is a solution to this data privacy issue by enabling computations directly upon encrypted queries. However, running encrypted transformer inference is challenging as programmers must map standard kernels to the constrained instruction set provided by FHE. In this work, we explore implementations of linear algebra kernels needed for transformer inference in FHE and understand how network optimization can help mitigate FHE costs while remaining performant. We leverage the Orion PyTorch to FHE framework to benchmark several linear algebra kernels in order to profile two linear transformation methods, packed row and BSGS, and find that BSGS outperforms packed row methods by up to $13.7 \times$ at transformer-level scales. We also incorporate network-level pruning strategies that reduce FHE runtimes of feed forward layers by up to $11.46\times$. Furthermore, we extend Orion to include ciphertext-ciphertext matrix-matrix products, a key component in the self-attention blocks. Finally, we perform a roofline analysis of FHE primitives and encrypted linear transformations and find that (SIMD encoded) implementations are memory-bound with primitives having roughly $0.1$ integer operations per byte of DRAM traffic. These findings illustrate the need for exploring alternative encoding schemes and models of computation within CKKS to unlock scalable private transformer inference. We conduct all experiments using the Orion framework which can be found at: https://github.com/baahl-nyu/orion.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのサービスは、主にクライアントとサーバのインタラクションとして構成されており、クライアントはLLMをホストするクラウドプロバイダに直接クエリを送信する。
このアプローチは現在、すべてのクエリをクラウドとクリアで処理する必要があるため、データのプライバシを侵害している。
FHE(Fully Homomorphic Encryption)は、暗号化クエリを直接計算可能にすることで、このデータプライバシ問題に対するソリューションである。
しかし、FHEが提供する制約付き命令セットに標準カーネルをマッピングしなければならないため、暗号化トランスフォーマー推論の実行は困難である。
本研究では,FHEにおける変圧器推論に必要な線形代数カーネルの実装について検討し,性能を保ちながらネットワーク最適化がFHEコストを緩和する方法について考察する。
We leverage the Orion PyTorch to FHE framework to benchmark several linear algebra kernels to profile two linear transformation method, pack row and BSGS, and found BSGS outforms filled row method at to $113.7 \times$ at transformer-level scales。
また、フィードフォワード層のFHEランタイムを最大11.46\times$で削減するネットワークレベルのプルーニング戦略も取り入れています。
さらに,Orionを拡張して,自己保持ブロックのキーコンポーネントである,暗号文・暗号文行列行列製品を含める。
最後に、FHEプリミティブと暗号化線形変換のルーフライン解析を行い、(SIMDエンコードされた)実装がメモリバウンドであり、DRAMトラフィックのバイト当たり約0.1$の整数演算を持つプリミティブであることを示す。
これらの結果は、拡張性のあるプライベートトランスフォーマー推論をアンロックするために、CKKS内の代替符号化スキームと計算モデルの探索の必要性を示している。
Orionフレームワークを使ったすべての実験は、https://github.com/baahl-nyu/orionで見ることができる。
関連論文リスト
- GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - HE-LRM: Encrypted Deep Learning Recommendation Models using Fully Homomorphic Encryption [3.0841649700901117]
FHE(Fully Homomorphic Encryption)は、データを暗号化するだけでなく、暗号化されたデータに直接計算を適用することができる暗号化方式である。
本稿では,FHEを深層学習勧告モデル(DLRM)に適用する際の課題と機会について考察する。
本研究では,FHE計算コストを低減し,基礎となるモデル性能を維持しつつ,圧縮埋込みルックアップを実行する新しい手法を開発した。
論文 参考訳(メタデータ) (2025-06-22T19:40:04Z) - Flexible Operator Fusion for Fast Sparse Transformer with Diverse Masking on GPU [17.61398186997867]
フレキシブルマスキングとGPU上の演算子融合によるスパーストランスフォーマーの最適化を組み込んだフレームワークであるSTOFを提案する。
STOFは,MHA計算で1.7倍,エンドツーエンド推論で1.5倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-06-06T13:54:34Z) - Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。
本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文 参考訳(メタデータ) (2025-02-12T06:05:52Z) - Encryption-Friendly LLM Architecture [11.386436468650016]
ホモモルフィック暗号(homomorphic encryption, HE)は、暗号状態における算術演算をサポートする暗号プロトコルである。
本稿では,パーソナライズされた(プライベートな)微調整による推論を重視した改良型HE-Friendly Transformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-03T13:48:35Z) - Scaling Efficient LLMs [0.0]
変圧器の「AIスケーリング法則」は、パラメータの数はデータのサイズと線形にスケールする必要があることを示唆している。
本稿では,リカレント変圧器と再カレントネットワークの有効性を組み合わせた再カレント変圧器を提案する。
論文 参考訳(メタデータ) (2024-02-22T18:06:19Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Factorizers for Distributed Sparse Block Codes [45.29870215671697]
分散ブロック符号(SBC)を高速かつ高精度に分解する手法を提案する。
我々の反復分解器は、しきい値に基づく非線形活性化、条件付きランダムサンプリング、および $ell_infty$-based similarity metricを導入している。
CIFAR-100, ImageNet-1K, RAVENデータセット上での4つの深層CNNアーキテクチャの実現可能性を示す。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers [71.32827362323205]
我々はLearner-Transformer (Learners)と呼ばれる線形変換器の新しいクラスを提案する。
様々な相対的位置エンコーディング機構(RPE)を組み込んでいる。
これらには、シーケンシャルデータに適用される正規の RPE 技術や、高次元ユークリッド空間に埋め込まれた幾何学的データを操作する新しい RPE などが含まれる。
論文 参考訳(メタデータ) (2023-02-03T18:57:17Z) - THE-X: Privacy-Preserving Transformer Inference with Homomorphic
Encryption [112.02441503951297]
トランスフォーマーモデルのプライバシ保護推論は、クラウドサービスユーザの要求に基づいています。
我々は、事前訓練されたモデルのプライバシ保存推論を可能にするトランスフォーマーの近似アプローチである$textitTHE-X$を紹介した。
論文 参考訳(メタデータ) (2022-06-01T03:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。