論文の概要: LaMoS: Enabling Efficient Large Number Modular Multiplication through SRAM-based CiM Acceleration
- arxiv url: http://arxiv.org/abs/2511.03341v1
- Date: Wed, 05 Nov 2025 10:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.403272
- Title: LaMoS: Enabling Efficient Large Number Modular Multiplication through SRAM-based CiM Acceleration
- Title(参考訳): LaMoS: SRAMベースのCiMアクセラレーションによる高効率大数モジュラ乗算の実現
- Authors: Haomin Li, Fangxin Liu, Chenyang Guan, Zongwu Wang, Li Jiang, Haibing Guan,
- Abstract要約: 大規模なモジュラー乗算のための効率的な計算メモリ(CiM)設計であるLaMoSを紹介する。
LaMoSは7.02倍のスピードアップを実現し、既存のCiMの設計と比べてビット幅のスケーリングコストを下げる。
- 参考スコア(独自算出の注目度): 16.444656025445713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Barrett's algorithm is one of the most widely used methods for performing modular multiplication, a critical nonlinear operation in modern privacy computing techniques such as homomorphic encryption (HE) and zero-knowledge proofs (ZKP). Since modular multiplication dominates the processing time in these applications, computational complexity and memory limitations significantly impact performance. Computing-in-Memory (CiM) is a promising approach to tackle this problem. However, existing schemes currently suffer from two main problems: 1) Most works focus on low bit-width modular multiplication, which is inadequate for mainstream cryptographic algorithms such as elliptic curve cryptography (ECC) and the RSA algorithm, both of which require high bit-width operations; 2) Recent efforts targeting large number modular multiplication rely on inefficient in-memory logic operations, resulting in high scaling costs for larger bit-widths and increased latency. To address these issues, we propose LaMoS, an efficient SRAM-based CiM design for large-number modular multiplication, offering high scalability and area efficiency. First, we analyze the Barrett's modular multiplication method and map the workload onto SRAM CiM macros for high bit-width cases. Additionally, we develop an efficient CiM architecture and dataflow to optimize large-number modular multiplication. Finally, we refine the mapping scheme for better scalability in high bit-width scenarios using workload grouping. Experimental results show that LaMoS achieves a $7.02\times$ speedup and reduces high bit-width scaling costs compared to existing SRAM-based CiM designs.
- Abstract(参考訳): バレットのアルゴリズムはモジュラ乗法(英語版)を実行する最も広く使われている手法の1つであり、ホモモルフィック暗号(HE)やゼロ知識証明(ZKP)といった現代のプライバシーコンピューティング技術において重要な非線形演算である。
モジュラー乗算がこれらのアプリケーションで処理時間を支配しているため、計算複雑性とメモリ制限は性能に大きな影響を及ぼす。
コンピューティング・イン・メモリ(CiM)はこの問題に対処するための有望なアプローチである。
しかし、現行の制度は2つの問題に悩まされている。
1)ほとんどの研究は、楕円曲線暗号(ECC)やRSAアルゴリズムのような主流暗号アルゴリズムでは不十分な低ビット幅モジュラ乗算に重点を置いており、どちらも高いビット幅演算を必要とする。
2) 多数のモジュラ乗算を対象とする最近の取り組みは、非効率なインメモリ論理演算に依存しており、ビット幅が大きい場合のスケーリングコストが高く、レイテンシが増大する。
これらの問題に対処するために,我々は,高スケーラビリティと面積効率を実現するSRAMベースのCiM設計であるLaMoSを提案する。
まず,Barrettのモジュラ乗算法を解析し,高ビット幅の場合の作業負荷をSRAM CiMマクロにマッピングする。
さらに,大規模なモジュラ乗算を最適化する効率的なCiMアーキテクチャとデータフローを開発した。
最後に、ワークロードグループ化を用いた高ビット幅シナリオにおけるスケーラビリティ向上のためのマッピング手法を改良する。
実験の結果、LaMoSは7.02\times$のスピードアップを実現し、既存のSRAMベースのCiM設計と比較してビット幅のスケーリングコストを削減した。
関連論文リスト
- Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [108.0657508755532]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。
これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文 参考訳(メタデータ) (2025-07-09T07:27:00Z) - ModSRAM: Algorithm-Hardware Co-Design for Large Number Modular Multiplication in SRAM [7.949839381468341]
楕円曲線暗号(ECC)は、公開鍵暗号(CPK)やゼロ知識証明(ZKP)といったセキュリティアプリケーションで広く使われている。
論文 参考訳(メタデータ) (2024-02-21T22:26:44Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - CMOS-based Single-Cycle In-Memory XOR/XNOR [0.0]
シングルサイクルインメモリXOR/XNOR演算のためのCMOSベースのハードウェアトポロジを提案する。
私たちの設計では、既存のCMOS互換ソリューションと比較して、レイテンシが少なくとも2倍改善されています。
この全CMOS設計は、大規模技術ノードにおけるCiM XOR/XNORの実践的実装の道を開くものである。
論文 参考訳(メタデータ) (2023-10-26T21:43:01Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - DAISM: Digital Approximate In-SRAM Multiplier-based Accelerator for DNN
Training and Inference [4.718504401468233]
PIMソリューションは、まだ成熟していない新しいメモリ技術か、パフォーマンス上のオーバーヘッドとスケーラビリティの問題のあるビットシリアル計算に依存している。
本稿では,従来のメモリを用いてビット並列計算を行い,複数のワードラインのアクティベーションを利用する,SRAM内デジタル乗算器を提案する。
次に、この乗算器を利用したアーキテクチャであるDAISMを導入し、SOTAと比較して最大2桁高い面積効率を実現し、競争エネルギー効率を向上する。
論文 参考訳(メタデータ) (2023-05-12T10:58:21Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - MARS: Multi-macro Architecture SRAM CIM-Based Accelerator with
Co-designed Compressed Neural Networks [0.6817102408452476]
畳み込みニューラルネットワーク(CNN)は、ディープラーニングアプリケーションにおいて重要な役割を果たす。
CIMアーキテクチャは大規模行列ベクトル乗算を効果的に計算する大きな可能性を示している。
計算コストを削減するため、ネットワークプルーニングと量子化は、モデルサイズを縮小する2つの広く研究されている圧縮手法である。
論文 参考訳(メタデータ) (2020-10-24T10:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。