Fugu-MT 論文翻訳(概要): ModSRAM: Algorithm-Hardware Co-Design for Large Number Modular Multiplication in SRAM

論文の概要: ModSRAM: Algorithm-Hardware Co-Design for Large Number Modular Multiplication in SRAM

arxiv url: http://arxiv.org/abs/2402.14152v1
Date: Wed, 21 Feb 2024 22:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 08:46:38.686497
Title: ModSRAM: Algorithm-Hardware Co-Design for Large Number Modular Multiplication in SRAM
Title（参考訳）: ModSRAM:SRAMにおける大規模モジュール乗算のためのアルゴリズムハードウェアの共同設計
Authors: Jonathan Ku, Junyao Zhang, Haoxuan Shan, Saichand Samudrala, Jiawen Wu, Qilin Zheng, Ziru Li, JV Rajendran, Yiran Chen,
Abstract要約: 楕円曲線暗号(ECC)は、公開鍵暗号(CPK)やゼロ知識証明(ZKP)といったセキュリティアプリケーションで広く使われている。
参考スコア（独自算出の注目度）: 7.949839381468341
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Elliptic curve cryptography (ECC) is widely used in security applications such as public key cryptography (PKC) and zero-knowledge proofs (ZKP). ECC is composed of modular arithmetic, where modular multiplication takes most of the processing time. Computational complexity and memory constraints of ECC limit the performance. Therefore, hardware acceleration on ECC is an active field of research. Processing-in-memory (PIM) is a promising approach to tackle this problem. In this work, we design ModSRAM, the first 8T SRAM PIM architecture to compute large-number modular multiplication efficiently. In addition, we propose R4CSA-LUT, a new algorithm that reduces the cycles for an interleaved algorithm and eliminates carry propagation for addition based on look-up tables (LUT). ModSRAM is co-designed with R4CSA-LUT to support modular multiplication and data reuse in memory with 52% cycle reduction compared to prior works with only 32% area overhead.
Abstract（参考訳）: 楕円曲線暗号(ECC)は、公開鍵暗号(PKC)やゼロ知識証明(ZKP)といったセキュリティアプリケーションで広く使われている。 ECCはモジュラー演算で構成されており、モジュラー乗算は処理時間の大部分を消費する。 ECCの計算複雑性とメモリ制限により、性能が制限される。したがって、ECCのハードウェアアクセラレーションは研究の活発な分野である。 PIM(Processing-in-Memory)は、この問題に対処するための有望なアプローチである。本研究では, 8T SRAM PIM アーキテクチャである ModSRAM を設計し, 大規模なモジュラ乗算を効率的に計算する。さらに、インターリーブされたアルゴリズムのサイクルを減らし、ルックアップテーブル(LUT)に基づいた加算のための搬送伝搬を排除する新しいアルゴリズムR4CSA-LUTを提案する。 ModSRAMはR4CSA-LUTと共同で設計され、メモリ上のモジュラ乗算とデータ再利用をサポートする。

関連論文リスト

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文参考訳（メタデータ） (2025-07-09T07:27:00Z)
CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文参考訳（メタデータ） (2025-06-23T17:50:11Z)
Leveraging ASIC AI Chips for Homomorphic Encryption [12.209134343914537]
ホモモルフィック暗号化(HE)は強力なプライバシー保証を提供するが、平文での計算よりもはるかに多くのリソースを必要とする。このレイテンシ問題を緩和するためにアクセラレータが登場したが、ASICのコストが高い。 HEプリミティブは、すでにクラウドに広くデプロイされているTPUのような既存のASIC AIアクセラレータ上で、AIオペレータに変換され、アクセラレーションされることを示す。
論文参考訳（メタデータ） (2025-01-13T04:08:14Z)
gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography [15.39096542261856]
Elliptic Curve Cryptography (ECC)は、Rivest-Shamir-Adleman (RSA)のような従来の技術に匹敵するセキュリティを提供する暗号化手法である。 ECCは、楕円曲線(EC)操作に関連する大きな性能上のオーバーヘッドによって、いまだに妨げられている。本稿では,GPUアーキテクチャ向けに最適化されたECCのための汎用フレームワークであるgECCを提案する。
論文参考訳（メタデータ） (2024-12-22T01:50:50Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory Architectures [0.1747623282473278]
CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。 CLSA-CIMと既存の重み付け戦略を統合し,SOTA(State-of-the-art)スケジューリングアルゴリズムとの比較を行った。
論文参考訳（メタデータ） (2024-01-15T13:35:21Z)
Experimental demonstration of magnetic tunnel junction-based computational random-access memory [4.640906373267124]
「計算ランダムアクセスメモリ(CRAM)が登場し、この基本的限界に対処している」 CRAMは、データがメモリを離れることなく、メモリセルを直接使用するロジック操作を実行する。テクノロジーは、マシンインテリジェンスの電力とエネルギーを消費する応用に大きな影響を与える可能性がある。
論文参考訳（メタデータ） (2023-12-21T19:28:54Z)
CMOS-based Single-Cycle In-Memory XOR/XNOR [0.0]
シングルサイクルインメモリXOR/XNOR演算のためのCMOSベースのハードウェアトポロジを提案する。私たちの設計では、既存のCMOS互換ソリューションと比較して、レイテンシが少なくとも2倍改善されています。この全CMOS設計は、大規模技術ノードにおけるCiM XOR/XNORの実践的実装の道を開くものである。
論文参考訳（メタデータ） (2023-10-26T21:43:01Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN Training and Inference [4.718504401468233]
PIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。
論文参考訳（メタデータ） (2023-05-12T10:58:21Z)
HDCC: A Hyperdimensional Computing compiler for classification on embedded systems and high-performance computing [58.720142291102135]
この研究は、HDC分類メソッドの高レベルな記述を最適化されたCコードに変換する最初のオープンソースコンパイラである、ネームコンパイラを紹介している。 nameは現代のコンパイラのように設計されており、直感的で記述的な入力言語、中間表現(IR)、再ターゲット可能なバックエンドを備えている。これらの主張を裏付けるために,HDC文献で最もよく使われているデータセットについて,HDCCを用いて実験を行った。
論文参考訳（メタデータ） (2023-04-24T19:16:03Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
In-memory Implementation of On-chip Trainable and Scalable ANN for AI/ML Applications [0.0]
本稿では,人工知能(AI)と機械学習(ML)アプリケーションを実現するための,ANNのためのインメモリコンピューティングアーキテクチャを提案する。我々の新しいオンチップトレーニングとインメモリアーキテクチャは、プリチャージサイクル当たりの配列の複数行を同時にアクセスすることで、エネルギーコストを削減し、スループットを向上させる。提案したアーキテクチャはIRISデータセットでトレーニングされ、以前の分類器と比較してMAC当たりのエネルギー効率が4,6倍に向上した。
論文参考訳（メタデータ） (2020-05-19T15:36:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。