論文の概要: Area Efficient Modular Reduction in Hardware for Arbitrary Static Moduli
- arxiv url: http://arxiv.org/abs/2308.15079v1
- Date: Tue, 29 Aug 2023 07:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 07:22:30.478538
- Title: Area Efficient Modular Reduction in Hardware for Arbitrary Static Moduli
- Title(参考訳): 任意静的モジュールのためのハードウェアにおける領域効率のよいモジュラー削減
- Authors: Robin Müller, Willi Meier, Christoph F. Wildfeuer,
- Abstract要約: そこで本研究では,任意の静的変調のためのハードウェアにおいて,モジュールリダクションを効率的に計算するための新しい手法を提案する。
我々の手法は一定時間で実行でき、これは暗号アプリケーションに必須である。
- 参考スコア(独自算出の注目度): 3.217374402111224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modular reduction is a crucial operation in many post-quantum cryptographic schemes, including the Kyber key exchange method or Dilithium signature scheme. However, it can be computationally expensive and pose a performance bottleneck in hardware implementations. To address this issue, we propose a novel approach for computing modular reduction efficiently in hardware for arbitrary static moduli. Unlike other commonly used methods such as Barrett or Montgomery reduction, the method does not require any multiplications. It is not dependent on properties of any particular choice of modulus for good performance and low area consumption. Its major strength lies in its low area consumption, which was reduced by 60% for optimized and up to 90% for generic Barrett implementations for Kyber and Dilithium. Additionally, it is well suited for parallelization and pipelining and scales linearly in hardware resource consumption with increasing operation width. All operations can be performed in the bit-width of the modulus, rather than the size of the number being reduced. This shortens carry chains and allows for faster clocking. Moreover, our method can be executed in constant time, which is essential for cryptography applications where timing attacks can be used to obtain information about the secret key.
- Abstract(参考訳): モジュラーリダクションは、キー交換法やディリシウムシグネチャスキームを含む多くの後量子暗号スキームにおいて重要な操作である。
しかし、計算コストが高く、ハードウェア実装のパフォーマンスボトルネックを引き起こす可能性がある。
この問題に対処するため,任意の静的変調のためのハードウェアにおいて,モジュールリダクションを効率的に計算するための新しい手法を提案する。
バレットやモンゴメリー還元のような他の一般的な方法とは異なり、この方法は乗法を必要としない。
優れた性能と低面積消費のために、特定のモジュラー選択の特性に依存しない。
その最大の強みは低面積の消費であり、最適化により60%、KyberとDilithium向けの一般的なBarrett実装では90%まで削減された。
さらに、並列化やパイプライニングに適しており、演算幅を増大させながら、ハードウェアリソース消費において線形にスケールする。
すべての演算は、減数される数ではなく、モジュラーのビット幅で行うことができる。
これにより鎖を運ぶことができ、より高速なクロックが可能となる。
さらに,シークレットキーに関する情報を取得するためにタイミング攻撃を使用できる暗号アプリケーションにおいて,本手法は一定時間で実行可能である。
関連論文リスト
- BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文 参考訳(メタデータ) (2024-10-31T13:26:11Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Efficient and Flexible Differet-Radix Montgomery Modular Multiplication for Hardware Implementation [14.516310806294433]
DRMMMと呼ばれる反復モンゴメリーモジュラー乗算の効率的な並列変乗法を提案し、複数の反復で商を計算できるようにする。
提案した変種に基づいて,高速な動作を実現するための高性能ハードウェア実装アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-07-17T16:24:15Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。
この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。
重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文 参考訳(メタデータ) (2024-03-29T12:15:06Z) - ModSRAM: Algorithm-Hardware Co-Design for Large Number Modular Multiplication in SRAM [7.949839381468341]
楕円曲線暗号(ECC)は、公開鍵暗号(CPK)やゼロ知識証明(ZKP)といったセキュリティアプリケーションで広く使われている。
論文 参考訳(メタデータ) (2024-02-21T22:26:44Z) - ReLU and Addition-based Gated RNN [1.484528358552186]
従来のリカレントゲートの乗算とシグモイド関数を加算とReLUアクティベーションで置き換える。
このメカニズムは、シーケンス処理のための長期メモリを維持するために設計されているが、計算コストは削減されている。
論文 参考訳(メタデータ) (2023-08-10T15:18:16Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Modular decoding: parallelizable real-time decoding for quantum
computers [55.41644538483948]
リアルタイム量子計算は、ノイズの多い量子ハードウェアによって生成されたデータのストリームから論理的な結果を取り出すことができる復号アルゴリズムを必要とする。
本稿では,デコーディングの精度を犠牲にすることなく,最小限の追加通信でこの問題に対処できるモジュールデコーディングを提案する。
本稿では,格子探索型耐故障ブロックのモジュールデコーディングの具体例であるエッジ頂点分解について紹介する。
論文 参考訳(メタデータ) (2023-03-08T19:26:10Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。