Fugu-MT 論文翻訳(概要): Microarchitecture Design and Benchmarking of Custom SHA-3 Instruction for RISC-V

論文の概要: Microarchitecture Design and Benchmarking of Custom SHA-3 Instruction for RISC-V

arxiv url: http://arxiv.org/abs/2508.20653v1
Date: Thu, 28 Aug 2025 10:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-29 18:12:02.350879
Title: Microarchitecture Design and Benchmarking of Custom SHA-3 Instruction for RISC-V
Title（参考訳）: RISC-VのためのカスタムSHA-3インストラクションのマイクロアーキテクチャ設計とベンチマーク
Authors: Alperen Bolat, Sakir Sezer, Kieran McLaughlin, Henry Hui,
Abstract要約: IntelのAES-NIやARMの暗号化ワークロードのカスタム命令など、ハードウェア支援の暗号命令は、大幅なパフォーマンス向上を実証している。しかし、効率的なSHA-3加速は、その異なる置換に基づく構造とメモリアクセスパターンのために未解決の問題である。本研究では,SHA-3の置換操作を汎用プロセッサにカスタム命令として組み込む際のアーキテクチャ上の課題について検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Integrating cryptographic accelerators into modern CPU architectures presents unique microarchitectural challenges, particularly when extending instruction sets with complex and multistage operations. Hardware-assisted cryptographic instructions, such as Intel's AES-NI and ARM's custom instructions for encryption workloads, have demonstrated substantial performance improvements. However, efficient SHA-3 acceleration remains an open problem due to its distinct permutation-based structure and memory access patterns. Existing solutions primarily rely on standalone coprocessors or software optimizations, often avoiding the complexities of direct microarchitectural integration. This study investigates the architectural challenges of embedding a SHA-3 permutation operation as a custom instruction within a general-purpose processor, focusing on pipelined simultaneous execution, storage utilization, and hardware cost. In this paper, we investigated and prototyped a SHA-3 custom instruction for the RISC-V CPU architecture. Using cycle-accurate GEM5 simulations and FPGA prototyping, our results demonstrate performance improvements of up to 8.02x for RISC-V optimized SHA-3 software workloads and up to 46.31x for Keccak-specific software workloads, with only a 15.09% increase in registers and a 11.51% increase in LUT utilization. These findings provide critical insights into the feasibility and impact of SHA-3 acceleration at the microarchitectural level, highlighting practical design considerations for future cryptographic instruction set extensions.
Abstract（参考訳）: 暗号アクセラレータを現代的なCPUアーキテクチャに統合することは、特に複雑な演算と多段階演算で命令セットを拡張する際に、ユニークなマイクロアーキテクチャ上の課題を示す。 IntelのAES-NIやARMの暗号化ワークロードのカスタム命令など、ハードウェア支援の暗号命令は、大幅なパフォーマンス向上を実証している。しかし、効率的なSHA-3加速は、その異なる置換に基づく構造とメモリアクセスパターンのために未解決の問題である。既存のソリューションは主にスタンドアロンのコプロセッサやソフトウェア最適化に依存しており、しばしば直接マイクロアーキテクチャ統合の複雑さを避ける。本研究では,SHA-3置換操作を汎用プロセッサにカスタム命令として組み込む際のアーキテクチャ上の課題について検討し,パイプライン並列実行,ストレージ利用,ハードウェアコストに着目した。本稿では,RISC-V CPUアーキテクチャのためのSHA-3カスタム命令について検討し,試作を行った。我々は,サイクル精度のGEM5シミュレーションとFPGAプロトタイピングを用いて,RISC-V最適化SHA-3ソフトウェアワークロードの最大8.02倍,ケッカック固有のソフトウェアワークロードの最大46.31倍,レジスタの15.09%,LUT利用の11.51%の増加を示す。これらの結果は,マイクロアーキテクチャレベルでのSHA-3アクセラレーションの実現可能性および影響に関する重要な洞察を与え,将来の暗号命令セット拡張のための実用的な設計上の考察を浮き彫りにした。

関連論文リスト

CryptRISC: A Secure RISC-V Processor for High-Performance Cryptography with Power Side-Channel Protection [1.5866931449827322]
CryptRISCは、暗号アクセラレーションとハードウェアレベルのパワーサイドチャネル抵抗を組み合わせた最初のRISC-Vプロセッサである。マスキングは広く使われている対策であるが、ソフトウェアベースの手法は、しばしば性能上のオーバーヘッドと実装上の複雑さをもたらす。
論文参考訳（メタデータ） (2026-02-23T19:13:35Z)
KScaNN: Scalable Approximate Nearest Neighbor Search on Kunpeng [46.35664429179457]
既存のx86 ANNSアルゴリズムをARMプラットフォームに移植すると、性能が大幅に低下する。我々は、Kunpeng 920 ARMアーキテクチャ用に設計された新しいANNSアルゴリズムであるKScaNNを紹介する。
論文参考訳（メタデータ） (2025-11-05T09:01:32Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文参考訳（メタデータ） (2025-07-09T07:27:00Z)
EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization [46.40666108181214]
Mixture-of-Experts (MoE)モデルは、大規模なディープラーニングの基盤として現れている。 MoEモデルは、従来の量子化技術に挑戦する固有の複雑さを持つ。我々は,MoE アーキテクチャに適した新しい PTQ フレームワークである EAQuant を提案する。
論文参考訳（メタデータ） (2025-06-16T10:18:50Z)
Design and Implementation of a RISC-V SoC with Custom DSP Accelerators for Edge Computing [0.0]
乗算 (M) とアトミック演算 (A) を拡張したRV32I ベース命令セットについて検討する。本研究は,組込みシステムにおけるRISC-Vの利点と,カスタムアクセラレータのスケーラビリティを示すものである。
論文参考訳（メタデータ） (2025-06-07T07:17:40Z)
gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography [15.39096542261856]
Elliptic Curve Cryptography (ECC)は、Rivest-Shamir-Adleman (RSA)のような従来の技術に匹敵するセキュリティを提供する暗号化手法である。 ECCは、楕円曲線(EC)操作に関連する大きな性能上のオーバーヘッドによって、いまだに妨げられている。本稿では,GPUアーキテクチャ向けに最適化されたECCのための汎用フレームワークであるgECCを提案する。
論文参考訳（メタデータ） (2024-12-22T01:50:50Z)
Mixed-precision Neural Networks on RISC-V Cores: ISA extensions for Multi-Pumped Soft SIMD Operations [5.847997723738113]
現代の組み込みマイクロプロセッサは、混合精度NNを非常に限定的にサポートしている。本稿では,協調ハードウェア設計,混合精度量子化,ISA拡張,推論を可能にするハードウェア・ソフトウェア共同設計フレームワークを提案する。我々のフレームワークは、平均15倍のエネルギー削減を1%未満の精度で達成でき、ISA非依存のRISC-Vコアよりも優れています。
論文参考訳（メタデータ） (2024-07-19T12:54:04Z)
A 3D Memristor Architecture for In-Memory Computing Demonstrated with SHA3 [1.024113475677323]
セキュリティは、ハードウェアのサポートを必要とする問題の増加です。 Memristorsはハードウェアをサポートするセキュリティ実装の代替技術を提供する。本稿では,メムリスタ技術のみを使用する実装に対して,SHA3で実証したハイブリッドCMOS-メムリスタ技術の利点を利用する,特定の手法を提案する。
論文参考訳（メタデータ） (2024-02-14T19:43:18Z)
Using the Abstract Computer Architecture Description Language to Model AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文参考訳（メタデータ） (2024-01-30T19:27:16Z)
SOCI^+: An Enhanced Toolkit for Secure OutsourcedComputation on Integers [50.608828039206365]
本稿では,SOCIの性能を大幅に向上させるSOCI+を提案する。 SOCI+は、暗号プリミティブとして、高速な暗号化と復号化を備えた(2, 2)ホールドのPaillier暗号システムを採用している。実験の結果,SOCI+は計算効率が最大5.4倍,通信オーバヘッドが40%少ないことがわかった。
論文参考訳（メタデータ） (2023-09-27T05:19:32Z)
MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文参考訳（メタデータ） (2021-11-30T03:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。