論文の概要: FAME: FPGA Acceleration of Secure Matrix Multiplication with Homomorphic Encryption
- arxiv url: http://arxiv.org/abs/2512.15515v1
- Date: Wed, 17 Dec 2025 15:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.038032
- Title: FAME: FPGA Acceleration of Secure Matrix Multiplication with Homomorphic Encryption
- Title(参考訳): FAME: 同型暗号化によるセキュアマトリックス乗算のFPGA高速化
- Authors: Zhihan Xu, Rajgopal Kannan, Viktor K. Prasanna,
- Abstract要約: ホモモルフィック暗号化(HE)は、クラウドコンピューティングにおけるプライバシー問題に対処する暗号化データに対するセキュアな計算を可能にする。
したがって、プライバシー保護機械学習のようなアプリケーションには、同型暗号化MM(HE MM)の高速化が不可欠である。
本稿では HE MM の帯域幅効率 FPGA 実装について述べる。
FAMEは、HE MM用に特別に設計されたFPGAベースのアクセラレーターである。
- 参考スコア(独自算出の注目度): 11.342625695057281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Homomorphic Encryption (HE) enables secure computation on encrypted data, addressing privacy concerns in cloud computing. However, the high computational cost of HE operations, particularly matrix multiplication (MM), remains a major barrier to its practical deployment. Accelerating homomorphic encrypted MM (HE MM) is therefore crucial for applications such as privacy-preserving machine learning. In this paper, we present a bandwidth-efficient FPGA implementation of HE MM. We first develop a cost model to evaluate the on-chip memory requirements for a given set of HE parameters and input matrix sizes. Our analysis shows that optimizing on-chip memory usage is critical for scalable and efficient HE MM. To this end, we design a novel datapath for Homomorphic Linear Transformation (HLT), the primary bottleneck in HE MM. The proposed datapath significantly reduces off-chip memory traffic and on-chip memory demand by enabling fine-grained data reuse. Leveraging this datapath, we introduce FAME, the first FPGA-based accelerator specifically tailored for HE MM. FAME supports arbitrary matrix shapes and is configurable across a wide range of HE parameter sets. We implement FAME on an Alveo U280 FPGA and evaluate its performance across diverse matrix sizes and shapes. Experimental results show that FAME achieves an average speedup of 221x over state-of-the-art CPU-based implementations, demonstrating its scalability and practicality for large-scale consecutive HE MM and real-world workloads.
- Abstract(参考訳): ホモモルフィック暗号化(HE)は、クラウドコンピューティングにおけるプライバシー問題に対処する暗号化データに対するセキュアな計算を可能にする。
しかし、HE演算の高計算コスト、特に行列乗算(MM)は、その実践的な展開にとって大きな障壁であり続けている。
したがって、プライバシー保護機械学習のようなアプリケーションには、同型暗号化MM(HE MM)の高速化が不可欠である。
本稿では,HE MM の帯域効率の高いFPGA 実装を提案する。
まず,HEパラメータと入力行列サイズのセットのオンチップメモリ要件を評価するためのコストモデルを構築した。
本分析は,オンチップメモリ使用量の最適化が,スケーラブルで効率的なHE MMを実現する上で重要であることを示す。
この目的のために, HE MM における主要なボトルネックである, ホモモルフィック線形変換 (HLT) のための新しいデータパスを設計する。
提案したデータパスは、微細なデータ再利用を可能にすることにより、オフチップメモリのトラフィックとオンチップメモリの需要を大幅に削減する。
このデータパスを活用することで、HE MM用に特別に調整されたFPGAベースの最初のアクセラレータであるFAMEを導入する。
FAMEは任意の行列形状をサポートし、幅広いHEパラメータセットで構成可能である。
本稿では,Alveo U280 FPGA上でFAMEを実装し,その性能を様々な行列サイズと形状で評価する。
実験により、FAMEは最先端のCPUベース実装よりも平均221倍の高速化を実現し、大規模連続型HEMMおよび実世界のワークロードのスケーラビリティと実用性を実証した。
関連論文リスト
- GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - Towards a Functionally Complete and Parameterizable TFHE Processor [3.907410857035328]
TFHEは高速トーラスベースの完全同型暗号方式である。
これは、他のどのFHEスキームよりも高速なブートストラップ動作性能を提供する。
ホモモルフィック回路の評価には計算オーバーヘッドがかなり高い。
本稿では,同相回路評価のためのFPGAベースのハードウェアアクセラレータを提案する。
論文 参考訳(メタデータ) (2025-10-27T16:16:40Z) - Orthogonal Finetuning Made Scalable [92.34573849209238]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの変更により、OFTv2は最大10倍の高速トレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - Design and Implementation of an FPGA-Based Hardware Accelerator for Transformer [0.0]
トランスフォーマーベースの大規模言語モデルは、注意層とフィードフォワード層のための行列乗法に大きく依存している。
資源制約付き Xilinx KV260 FPGA 上で,高度に最適化されたタイル行列乗算アクセラレータを提案する。
我々の設計では、永続的なオンチップストレージ、最大データ再利用のための堅牢な2レベルタイリング戦略、およびシストリックのような非ローリング計算エンジンを活用している。
論文 参考訳(メタデータ) (2025-03-20T22:15:42Z) - SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。
ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文 参考訳(メタデータ) (2024-11-23T21:43:38Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。