論文の概要: ALLMod: Exploring $\underline{\mathbf{A}}$rea-Efficiency of $\underline{\mathbf{L}}$UT-based $\underline{\mathbf{L}}$arge Number $\underline{\mathbf{Mod}}$ular Reduction via Hybrid Workloads
- arxiv url: http://arxiv.org/abs/2503.15916v1
- Date: Thu, 20 Mar 2025 07:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:33:14.629157
- Title: ALLMod: Exploring $\underline{\mathbf{A}}$rea-Efficiency of $\underline{\mathbf{L}}$UT-based $\underline{\mathbf{L}}$arge Number $\underline{\mathbf{Mod}}$ular Reduction via Hybrid Workloads
- Title(参考訳): ALLMod: Exploring $\underline{\mathbf{A}}$rea-Efficiency of $\underline{\mathbf{L}}$UT-based $\underline{\mathbf{L}}$arge Number $\underline{\mathbf{Mod}}$ular Reduction via Hybrid Workloads
- Authors: Fangxin Liu, Haomin Li, Zongwu Wang, Bo Zhang, Mingzhe Zhang, Shoumeng Yan, Li Jiang, Haibing Guan,
- Abstract要約: 高ビット幅の操作は、セキュリティの強化に不可欠である。
計算量が多いのは、多くのモジュラー演算が必要なためである。
AllModは、LUTベースの大規模モジュラーリダクションの面積効率を改善する新しいアプローチである。
- 参考スコア(独自算出の注目度): 18.634794494170617
- License:
- Abstract: Modular arithmetic, particularly modular reduction, is widely used in cryptographic applications such as homomorphic encryption (HE) and zero-knowledge proofs (ZKP). High-bit-width operations are crucial for enhancing security; however, they are computationally intensive due to the large number of modular operations required. The lookup-table-based (LUT-based) approach, a ``space-for-time'' technique, reduces computational load by segmenting the input number into smaller bit groups, pre-computing modular reduction results for each segment, and storing these results in LUTs. While effective, this method incurs significant hardware overhead due to extensive LUT usage. In this paper, we introduce ALLMod, a novel approach that improves the area efficiency of LUT-based large-number modular reduction by employing hybrid workloads. Inspired by the iterative method, ALLMod splits the bit groups into two distinct workloads, achieving lower area costs without compromising throughput. We first develop a template to facilitate workload splitting and ensure balanced distribution. Then, we conduct design space exploration to evaluate the optimal timing for fusing workload results, enabling us to identify the most efficient design under specific constraints. Extensive evaluations show that ALLMod achieves up to $1.65\times$ and $3\times$ improvements in area efficiency over conventional LUT-based methods for bit-widths of $128$ and $8,192$, respectively.
- Abstract(参考訳): モジュラー算術、特にモジュラー還元は、ホモモルフィック暗号(HE)やゼロ知識証明(ZKP)といった暗号アプリケーションで広く使われている。
高ビット幅演算はセキュリティ向上に不可欠であるが、多くのモジュラー演算を必要とするため計算集約的である。
lookup-table-based (LUT-based) approach, a `space-for-time' technique, the input number segmenting into small bit group, pre-computing modular reduction results for each segment, and stored these results in LUTs。
有効ではあるが、この手法は広範なLUT使用のためにハードウェアのオーバーヘッドを著しく発生させる。
本稿では,LUTをベースとした大規模モジュラーリダクションの面積効率を向上させる手法であるALLModを紹介する。
繰り返し方式にインスパイアされたALLModは、ビット群を2つの異なるワークロードに分割し、スループットを損なうことなく、より低い領域コストを達成する。
まず、ワークロード分割を容易にし、バランスの取れた分散を保証するテンプレートを開発します。
そして, 作業負荷を低減させる最適タイミングを評価するために, 設計空間探索を行い, 特定の制約の下で最も効率的な設計を特定できるようにする。
大規模な評価では、ALLMod は従来の LUT ベースのビット幅でそれぞれ $128$ と 8,192$ の領域効率の改善に対して $1.65\times$ と $3\times$ を達成している。
関連論文リスト
- Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - LUT-DLA: Lookup Table as Efficient Extreme Low-Bit Deep Learning Accelerator [11.167930856636161]
本稿では、ベクトル量子化を利用してニューラルネットワークモデルをLUTに変換するLUT-DLA(Look-Up Table (LUT) Deep Learning Accelerator Framework)を紹介する。
LUT-DLAは、それぞれ$1.4$$7.0times$と$1.5$$$146.1times$で、電力効率と面積効率の改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-01-18T05:27:25Z) - Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。
LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。
訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文 参考訳(メタデータ) (2024-10-01T16:10:21Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Low-Complexity Integer Divider Architecture for Homomorphic Encryption [5.857929080874288]
ホモモルフィック暗号化(HE)は、計算を直接暗号文で行うことができ、プライバシ保護のクラウドコンピューティングを可能にする。
余剰かつ活発な数学的証明を計算するアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2024-01-19T23:53:59Z) - Area Efficient Modular Reduction in Hardware for Arbitrary Static Moduli [3.217374402111224]
そこで本研究では,任意の静的変調のためのハードウェアにおいて,モジュールリダクションを効率的に計算するための新しい手法を提案する。
我々の手法は一定時間で実行でき、これは暗号アプリケーションに必須である。
論文 参考訳(メタデータ) (2023-08-29T07:26:20Z) - Reconstructed Convolution Module Based Look-Up Tables for Efficient
Image Super-Resolution [9.715421499605934]
ルックアップテーブル(LUT)に基づく手法は、単一画像超解像(SR)タスクにおいて大きな効果を示した。
従来の方法は、LUTにおける制限受容野(RF)サイズの本質的な理由を無視している。
本稿では,チャネルワイドと空間計算を分離した新しい再構成畳み込みモジュールを提案する。
論文 参考訳(メタデータ) (2023-07-17T15:04:00Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - 1$\times$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。
このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。
また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文 参考訳(メタデータ) (2021-05-31T05:50:33Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。