論文の概要: EFFACT: A Highly Efficient Full-Stack FHE Acceleration Platform
- arxiv url: http://arxiv.org/abs/2504.15817v1
- Date: Tue, 22 Apr 2025 12:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:40:10.654474
- Title: EFFACT: A Highly Efficient Full-Stack FHE Acceleration Platform
- Title(参考訳): EFFACT: フルスタックFHE高速化プラットフォーム
- Authors: Yi Huang, Xinsheng Gong, Xiangyu Kong, Dibei Chen, Jianfeng Zhu, Wenping Zhu, Liangwei Li, Mingyu Gao, Shaojun Wei, Aoyang Zhang, Leibo Liu,
- Abstract要約: EFFACTは、包括的な最適化とベクターフレンドリなハードウェアを提供するコンパイラを備えた、非常に効率的なフルスタックFHEアクセラレーションプラットフォームである。
EFFACTにはISAとコンパイラバックエンドがあり、CKKS、BGV、BFVなどのFHEスキームをサポートする。
- 参考スコア(独自算出の注目度): 15.3973190088728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fully Homomorphic Encryption (FHE) is a set of powerful cryptographic schemes that allows computation to be performed directly on encrypted data with an unlimited depth. Despite FHE's promising in privacy-preserving computing, yet in most FHE schemes, ciphertext generally blows up thousands of times compared to the original message, and the massive amount of data load from off-chip memory for bootstrapping and privacy-preserving machine learning applications (such as HELR, ResNet-20), both degrade the performance of FHE-based computation. Several hardware designs have been proposed to address this issue, however, most of them require enormous resources and power. An acceleration platform with easy programmability, high efficiency, and low overhead is a prerequisite for practical application. This paper proposes EFFACT, a highly efficient full-stack FHE acceleration platform with a compiler that provides comprehensive optimizations and vector-friendly hardware. We start by examining the computational overhead across different real-world benchmarks to highlight the potential benefits of reallocating computing resources for efficiency enhancement. Then we make a design space exploration to find an optimal SRAM size with high utilization and low cost. On the other hand, EFFACT features a novel optimization named streaming memory access which is proposed to enable high throughput with limited SRAMs. Regarding the software-side optimization, we also propose a circuit-level function unit reuse scheme, to substantially reduce the computing resources without performance degradation. Moreover, we design novel NTT and automorphism units that are suitable for a cost-sensitive and highly efficient architecture, leading to low area. For generality, EFFACT is also equipped with an ISA and a compiler backend that can support several FHE schemes like CKKS, BGV, and BFV.
- Abstract(参考訳): FHE(Fully Homomorphic Encryption)は、暗号化されたデータに直接、無限の深さで計算を実行できる強力な暗号方式の集合である。
FHEはプライバシ保存コンピューティングにおいて有望だが、ほとんどのFHEスキームでは、暗号文は元々のメッセージと比較して数千回も爆発し、ブートストラップやプライバシ保存機械学習アプリケーション(HELR、ResNet-20など)のためのオフチップメモリからの大量のデータ負荷は、どちらもFHEベースの計算性能を低下させる。
この問題に対処するためにいくつかのハードウェア設計が提案されているが、そのほとんどは膨大なリソースと電力を必要とする。
プログラム容易性、高効率、低オーバーヘッドのアクセラレーションプラットフォームは、実用的な応用の前提条件である。
本稿では,包括的最適化とベクトルフレンドリなハードウェアを提供するコンパイラを備えた,高効率フルスタックFHE加速プラットフォームであるEFFACTを提案する。
まず、さまざまな実世界のベンチマークにまたがる計算オーバーヘッドを調べ、効率の向上のために計算資源を再配置することの潜在的な利点を強調します。
そこで我々は,高い利用率と低コストで最適なSRAMサイズを求めるために,設計空間を探索する。
一方、EFFACTはストリーミングメモリアクセスと呼ばれる新しい最適化を備えており、限られたSRAMで高いスループットを実現するために提案されている。
また,ソフトウェア側最適化に関して,性能劣化を伴わない計算資源を大幅に削減する回路レベル関数ユニット再利用方式を提案する。
さらに、コスト感受性と高効率なアーキテクチャに適した新しいNTTと自己同型ユニットを設計し、低面積化を実現した。
EFFACTにはISAとコンパイラバックエンドがあり、CKKS、BGV、BFVなどのFHEスキームをサポートする。
関連論文リスト
- COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。
それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文 参考訳(メタデータ) (2025-02-24T18:42:19Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference [2.9302211589186244]
大規模言語モデル(LLM)は自然言語処理を変換し、機械が人間のようなテキストを生成し、意味のある会話を行うことを可能にする。
計算と記憶能力の発達はムーアの法則の廃止によってさらに悪化している。
コンピュート・イン・メモリ(CIM)技術は、メモリ内でアナログ計算を直接実行することにより、AI推論を加速するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-12T16:57:58Z) - SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。
本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文 参考訳(メタデータ) (2024-05-27T10:25:08Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - FHEmem: A Processing In-Memory Accelerator for Fully Homomorphic Encryption [9.884698447131374]
ホモモルフィック暗号化(英: Homomorphic Encryption、FHE)は、暗号化データ上で任意の計算を復号化せずに実行できる技術である。
FHEは、暗号化後のデータサイズの増加により、普通のデータの計算よりも大幅に遅い。
PIMベースのFHEアクセラレータFHEmemを提案する。
論文 参考訳(メタデータ) (2023-11-27T20:11:38Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。