Fugu-MT 論文翻訳(概要): Cost-Effective Optimization and Implementation of the CRT-Paillier Decryption Algorithm for Enhanced Performance

論文の概要: Cost-Effective Optimization and Implementation of the CRT-Paillier Decryption Algorithm for Enhanced Performance

arxiv url: http://arxiv.org/abs/2506.17935v1
Date: Sun, 22 Jun 2025 08:06:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:36.656632
Title: Cost-Effective Optimization and Implementation of the CRT-Paillier Decryption Algorithm for Enhanced Performance
Title（参考訳）: 性能向上のためのCRT-Paillier復号アルゴリズムのコスト効果最適化と実装
Authors: Zhengwu Huang, Ding Deng, Pengyue Sun, Guangfu Sun, Xiaomei Tang,
Abstract要約: 本稿では,eCRT-Paillier復号アルゴリズムを提案する。これらの2つの改善により、CRT-Paillier復号アルゴリズムの後処理において、50%のモジュラ乗算と60%の判定操作が削減された。評価のために、Xilinx Virtex-7 FPGAにMESAという高スループットで効率的なPaillierアクセラレータを実装した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To address the privacy protection problem in cloud computing, privacy enhancement techniques such as the Paillier additive homomorphism algorithm are receiving widespread attention. Paillier algorithm allows addition and scalar multiplication operations in dencrypted state, which can effectively protect privacy. However, its computational efficiency is limited by complex modulo operations due to the ciphertext expansion followed by encryption. To accelerate its decryption operation, the Chinese Remainder Theorem (CRT) is often used to optimize these modulo operations, which lengthens the decryption computation chain in turn. To address this issue, we propose an eCRT-Paillier decryption algorithm that shortens the decryption computation chain by combining precomputed parameters and eliminating extra judgment operations introduced by Montgomery modular multiplications. These two improvements reduce 50% modular multiplications and 60% judgment operations in the postprocessing of the CRT-Paillier decryption algorithm. Based on these improvements, we propose a highly parallel full-pipeline architecture to eliminate stalls caused by multiplier reuse in traditional modular exponentiation operations. This architecture also adopts some optimizations such as simplifying modular exponentiation units by dividing the exponent into segments and parallelizing data flow by multi-core instantiation. Finally, a high-throughput and efficient Paillier accelerator named MESA was implemented on the Xilinx Virtex-7 FPGA for evaluation, which can complete a decryption using 2048-bit key within 0.577ms under 100 MHz clock frequency. Compared to prior works, MESA demonstrates a throughput improvement of 1.16 to 313.21 under identical conditions, also with enhancements in area efficiency for LUT, DSP, and FF of 3.32 to 117.55, 1.49 to 1.64, and 2.94 to 9.94, respectively.
Abstract（参考訳）: クラウドコンピューティングにおけるプライバシ保護問題に対処するため、Paillier加法準同型アルゴリズムのようなプライバシ強化技術が広く注目を集めている。 Paillierアルゴリズムは、暗号化された状態での追加およびスカラー乗算操作を可能にし、効果的にプライバシを保護することができる。しかし、その計算効率は暗号文の拡張と暗号化による複雑なモジュロ演算によって制限される。復号化処理を高速化するため、中国語のRemainder Theorem (CRT) は復号化演算を最適化するためにしばしば使用される。この問題に対処するため,モンゴメリーのモジュラー乗算で導入された事前計算パラメータと余分な判定操作を組み合わせ,復号化計算チェーンを短縮するeCRT-Paillier復号アルゴリズムを提案する。これらの2つの改善により、CRT-Paillier復号アルゴリズムの後処理において、50%のモジュラ乗算と60%の判定操作が削減された。これらの改良に基づき,従来のモジュラー指数演算における乗算器の再利用によるストールを解消する,並列性の高いフルパイプアーキテクチャを提案する。このアーキテクチャはまた、指数をセグメントに分割し、マルチコアインスタンス化によってデータフローを並列化するモジュラー指数単位を単純化するなど、いくつかの最適化も採用している。最後に、評価のためにXilinx Virtex-7 FPGAにMESAと呼ばれる高スループットで効率的なPaillierアクセラレータを実装し、100MHzのクロック周波数で0.577msの2048ビット鍵で復号を実現できる。以前の研究と比較すると、MESAは同じ条件下で1.16から313.21のスループット向上を示し、LUT、DSP、FFの面積効率は3.32から117.55、FFは1.49から1.64、FFは2.94から9.94に向上した。

関連論文リスト

CryptRISC: A Secure RISC-V Processor for High-Performance Cryptography with Power Side-Channel Protection [1.5866931449827322]
CryptRISCは、暗号アクセラレーションとハードウェアレベルのパワーサイドチャネル抵抗を組み合わせた最初のRISC-Vプロセッサである。マスキングは広く使われている対策であるが、ソフトウェアベースの手法は、しばしば性能上のオーバーヘッドと実装上の複雑さをもたらす。
論文参考訳（メタデータ） (2026-02-23T19:13:35Z)
A Scalable Architecture for Efficient Multi-bit Fully Homomorphic Encryption [1.4174227043241145]
本稿では,マルチビットTFHE計算の効率化を目的としたハードウェアアクセラレータTaurusを紹介する。 Taurusは、新しいFFTユニットを活用し、キー再利用戦略を通じてメモリ帯域幅を最適化することで、最大10ビットの暗号文をサポートする。実験の結果,TaurusはCPU上で最大2600倍の高速化,GPU上で1200倍の高速化を実現した。
論文参考訳（メタデータ） (2025-09-16T05:00:57Z)
Orthogonal Finetuning Made Scalable [87.49040247077389]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。これらの修正により、OFTv2はパフォーマンスを損なうことなく、最大10倍高速なトレーニングと3倍のGPUメモリ使用率を達成することができる。
論文参考訳（メタデータ） (2025-06-24T17:59:49Z)
Efficient Hardware Implementation of Modular Multiplier over GF (2m) on FPGA [0.10241134756773226]
楕円曲線暗号(ECC)が主要な公開鍵プロトコルとして登場している。本研究では,バイナリフィールドGF(2m)上のモジュラ乗算のためのハイブリッド乗算手法のハードウェア実装を提案する。従来の乗算(CM)とカラツバ乗算(KM)の組み合わせを最適化して楕円曲線点乗算(ECPM)を強化する設計である。本手法は,ECC暗号システムの高速化,ハードウェア効率,資源利用を著しく向上させる。
論文参考訳（メタデータ） (2025-06-11T07:14:05Z)
Resource Analysis of Low-Overhead Transversal Architectures for Reconfigurable Atom Arrays [38.6948808036416]
本稿では,大規模フォールトトレラント量子アルゴリズムのレイアウトと資源推定をサポートする低オーバヘッドアーキテクチャを提案する。 2048ビットのRSAファクタリングは5.6日で19万キュービットで実行でき、QECサイクルは1ミリ秒である。
論文参考訳（メタデータ） (2025-05-21T18:00:18Z)
Fast correlated decoding of transversal logical algorithms [67.01652927671279]
大規模計算には量子エラー補正(QEC)が必要であるが、かなりのリソースオーバーヘッドが発生する。近年の進歩により、論理ゲートからなるアルゴリズムにおいて論理キュービットを共同で復号化することにより、症候群抽出ラウンドの数を削減できることが示されている。ここでは、回路を介して伝播する関連する論理演算子製品を直接復号することで、回路の復号化の問題を修正する。
論文参考訳（メタデータ） (2025-05-19T18:00:00Z)
Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。 APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文参考訳（メタデータ） (2025-04-21T22:29:02Z)
Exploiting Unstructured Sparsity in Fully Homomorphic Encrypted DNNs [0.37570612254620583]
プライバシーに敏感な環境でのディープニューラルネットワーク(DNN)は、完全同型暗号化(FHE)における計算オーバーヘッドによって制約される本稿では,FHE行列乗算法における非構造的空間性について,モデルの精度要件を維持しつつ,その負担を軽減する方法として検討する。本研究では,任意の行列乗法で空間空間を利用でき,全ての空間領域において,ベースラインナイーブアルゴリズムと比較して実行時利益が得られることを示した。
論文参考訳（メタデータ） (2025-03-12T09:24:31Z)
CIPHERMATCH: Accelerating Homomorphic Encryption-Based String Matching via Memory-Efficient Data Packing and In-Flash Processing [8.114331115730021]
ホモモルフィック暗号化(HE)は、元のデータを公開せずに暗号化されたデータのセキュアな計算を可能にする。多くのクラウドコンピューティングアプリケーション(例えば、DNA読み取りマッピング、バイオメトリックマッチング、Web検索)は、正確な文字列マッチングをキー操作として使っている。ホモモルフィック暗号を用いた従来の文字列マッチングアルゴリズムは、高い計算遅延によって制限される。
論文参考訳（メタデータ） (2025-03-12T00:25:58Z)
Optimized circuits for windowed modular arithmetic with applications to quantum attacks against RSA [45.810803542748495]
ウィンドウ演算は、空間時間トレードオフを伴う量子回路のコストを削減する手法である。この作業では、ウィンドウ化されたモジュラー指数に4つの最適化を導入する。これにより、暗号化アプリケーションに関連するモジュール型指数回路において、Toffoli数とToffoli深度が3%向上する。
論文参考訳（メタデータ） (2025-02-24T16:59:16Z)
Leveraging ASIC AI Chips for Homomorphic Encryption [12.209134343914537]
ホモモルフィック暗号化(HE)は強力なプライバシー保証を提供するが、平文での計算よりもはるかに多くのリソースを必要とする。このレイテンシ問題を緩和するためにアクセラレータが登場したが、ASICのコストが高い。 HEプリミティブは、すでにクラウドに広くデプロイされているTPUのような既存のASIC AIアクセラレータ上で、AIオペレータに変換され、アクセラレーションされることを示す。
論文参考訳（メタデータ） (2025-01-13T04:08:14Z)
UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文参考訳（メタデータ） (2024-06-26T08:44:36Z)
Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。 LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文参考訳（メタデータ） (2024-06-14T13:42:38Z)
SOCI^+: An Enhanced Toolkit for Secure OutsourcedComputation on Integers [50.608828039206365]
本稿では,SOCIの性能を大幅に向上させるSOCI+を提案する。 SOCI+は、暗号プリミティブとして、高速な暗号化と復号化を備えた(2, 2)ホールドのPaillier暗号システムを採用している。実験の結果,SOCI+は計算効率が最大5.4倍,通信オーバヘッドが40%少ないことがわかった。
論文参考訳（メタデータ） (2023-09-27T05:19:32Z)
Efficient Additions and Montgomery Reductions of Large Integers for SIMD [2.362288417229025]
本稿では,512ビット以上の整数に対してモンゴメリー還元と加算を行うための効率的なアルゴリズムを提案する。新しい加算アルゴリズムは、より小さな加算を用いて大きな整数の追加をシミュレートし、すぐに同じキャリーセットを生成する。モンゴメリー還元の場合、シリアル乗算はSIMD拡張を用いて効果的に計算できるプリ計算に置き換えられる。
論文参考訳（メタデータ） (2023-08-31T03:44:49Z)
Distributed Learning and Democratic Embeddings: Polynomial-Time Source Coding Schemes Can Achieve Minimax Lower Bounds for Distributed Gradient Descent under Communication Constraints [46.17631511884969]
我々は、n次元ユークリッド空間においてベクトルを圧縮する問題を考える。数値化器の被覆効率が次元独立であるか、あるいは非常に弱い対数依存であるという意味では、民主主義的および民主的に近いソースコーディングスキームが(ほぼ)最適であることを示す。分散最適化アルゴリズムDGD-DEFを提案する。このアルゴリズムは,提案した符号化戦略を用いて,(ほぼ)定数要素内における最小収束率を実現する。
論文参考訳（メタデータ） (2021-03-13T00:04:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。