Fugu-MT 論文翻訳(概要): Area Efficient Modular Reduction in Hardware for Arbitrary Static Moduli

論文の概要: Area Efficient Modular Reduction in Hardware for Arbitrary Static Moduli

arxiv url: http://arxiv.org/abs/2308.15079v1
Date: Tue, 29 Aug 2023 07:26:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 07:22:30.478538
Title: Area Efficient Modular Reduction in Hardware for Arbitrary Static Moduli
Title（参考訳）: 任意静的モジュールのためのハードウェアにおける領域効率のよいモジュラー削減
Authors: Robin Müller, Willi Meier, Christoph F. Wildfeuer,
Abstract要約: そこで本研究では,任意の静的変調のためのハードウェアにおいて,モジュールリダクションを効率的に計算するための新しい手法を提案する。我々の手法は一定時間で実行でき、これは暗号アプリケーションに必須である。
参考スコア（独自算出の注目度）: 3.217374402111224
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modular reduction is a crucial operation in many post-quantum cryptographic schemes, including the Kyber key exchange method or Dilithium signature scheme. However, it can be computationally expensive and pose a performance bottleneck in hardware implementations. To address this issue, we propose a novel approach for computing modular reduction efficiently in hardware for arbitrary static moduli. Unlike other commonly used methods such as Barrett or Montgomery reduction, the method does not require any multiplications. It is not dependent on properties of any particular choice of modulus for good performance and low area consumption. Its major strength lies in its low area consumption, which was reduced by 60% for optimized and up to 90% for generic Barrett implementations for Kyber and Dilithium. Additionally, it is well suited for parallelization and pipelining and scales linearly in hardware resource consumption with increasing operation width. All operations can be performed in the bit-width of the modulus, rather than the size of the number being reduced. This shortens carry chains and allows for faster clocking. Moreover, our method can be executed in constant time, which is essential for cryptography applications where timing attacks can be used to obtain information about the secret key.
Abstract（参考訳）: モジュラーリダクションは、キー交換法やディリシウムシグネチャスキームを含む多くの後量子暗号スキームにおいて重要な操作である。しかし、計算コストが高く、ハードウェア実装のパフォーマンスボトルネックを引き起こす可能性がある。この問題に対処するため,任意の静的変調のためのハードウェアにおいて,モジュールリダクションを効率的に計算するための新しい手法を提案する。バレットやモンゴメリー還元のような他の一般的な方法とは異なり、この方法は乗法を必要としない。優れた性能と低面積消費のために、特定のモジュラー選択の特性に依存しない。その最大の強みは低面積の消費であり、最適化により60%、KyberとDilithium向けの一般的なBarrett実装では90%まで削減された。さらに、並列化やパイプライニングに適しており、演算幅を増大させながら、ハードウェアリソース消費において線形にスケールする。すべての演算は、減数される数ではなく、モジュラーのビット幅で行うことができる。これにより鎖を運ぶことができ、より高速なクロックが可能となる。さらに,シークレットキーに関する情報を取得するためにタイミング攻撃を使用できる暗号アプリケーションにおいて,本手法は一定時間で実行可能である。

関連論文リスト

LaMoS: Enabling Efficient Large Number Modular Multiplication through SRAM-based CiM Acceleration [16.444656025445713]
大規模なモジュラー乗算のための効率的な計算メモリ(CiM)設計であるLaMoSを紹介する。 LaMoSは7.02倍のスピードアップを実現し、既存のCiMの設計と比べてビット幅のスケーリングコストを下げる。
論文参考訳（メタデータ） (2025-11-05T10:20:26Z)
Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文参考訳（メタデータ） (2025-10-23T20:19:48Z)
A Modular, Adaptive, and Scalable Quantum Factoring Algorithm [0.5729426778193398]
Shorの整数分解アルゴリズムは古典的手法よりも指数関数的な高速化を提供する。多くのコヒーレント量子ビットと非常に深い回路を必要とするため、ノイズ中間量子(NISQ)ハードウェアでは実用的ではない。我々は、これらの制限を緩和するShorのアルゴリズムのモジュラーでウィンドウ化された定式化を開発した。
論文参考訳（メタデータ） (2025-09-05T11:21:10Z)
Orthogonal Finetuning Made Scalable [87.49040247077389]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。これらの修正により、OFTv2はパフォーマンスを損なうことなく、最大10倍高速なトレーニングと3倍のGPUメモリ使用率を達成することができる。
論文参考訳（メタデータ） (2025-06-24T17:59:49Z)
CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文参考訳（メタデータ） (2025-06-23T17:50:11Z)
ALLMod: Exploring $\underline{\mathbf{A}}$rea-Efficiency of $\underline{\mathbf{L}}$UT-based $\underline{\mathbf{L}}$arge Number $\underline{\mathbf{Mod}}$ular Reduction via Hybrid Workloads [18.634794494170617]
高ビット幅の操作は、セキュリティの強化に不可欠である。計算量が多いのは、多くのモジュラー演算が必要なためである。 AllModは、LUTベースの大規模モジュラーリダクションの面積効率を改善する新しいアプローチである。
論文参考訳（メタデータ） (2025-03-20T07:47:34Z)
Leveraging ASIC AI Chips for Homomorphic Encryption [12.209134343914537]
ホモモルフィック暗号化(HE)は強力なプライバシー保証を提供するが、平文での計算よりもはるかに多くのリソースを必要とする。このレイテンシ問題を緩和するためにアクセラレータが登場したが、ASICのコストが高い。 HEプリミティブは、すでにクラウドに広くデプロイされているTPUのような既存のASIC AIアクセラレータ上で、AIオペレータに変換され、アクセラレーションされることを示す。
論文参考訳（メタデータ） (2025-01-13T04:08:14Z)
gECC: A GPU-based high-throughput framework for Elliptic Curve Cryptography [15.39096542261856]
Elliptic Curve Cryptography (ECC)は、Rivest-Shamir-Adleman (RSA)のような従来の技術に匹敵するセキュリティを提供する暗号化手法である。 ECCは、楕円曲線(EC)操作に関連する大きな性能上のオーバーヘッドによって、いまだに妨げられている。本稿では,GPUアーキテクチャ向けに最適化されたECCのための汎用フレームワークであるgECCを提案する。
論文参考訳（メタデータ） (2024-12-22T01:50:50Z)
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。 textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文参考訳（メタデータ） (2024-10-31T13:26:11Z)
Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文参考訳（メタデータ） (2024-09-26T14:17:58Z)
Efficient and Flexible Differet-Radix Montgomery Modular Multiplication for Hardware Implementation [14.516310806294433]
DRMMMと呼ばれる反復モンゴメリーモジュラー乗算の効率的な並列変乗法を提案し、複数の反復で商を計算できるようにする。提案した変種に基づいて,高速な動作を実現するための高性能ハードウェア実装アーキテクチャを設計する。
論文参考訳（メタデータ） (2024-07-17T16:24:15Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文参考訳（メタデータ） (2024-03-29T12:15:06Z)
ModSRAM: Algorithm-Hardware Co-Design for Large Number Modular Multiplication in SRAM [7.949839381468341]
楕円曲線暗号(ECC)は、公開鍵暗号(CPK)やゼロ知識証明(ZKP)といったセキュリティアプリケーションで広く使われている。
論文参考訳（メタデータ） (2024-02-21T22:26:44Z)
ReLU and Addition-based Gated RNN [1.484528358552186]
従来のリカレントゲートの乗算とシグモイド関数を加算とReLUアクティベーションで置き換える。このメカニズムは、シーケンス処理のための長期メモリを維持するために設計されているが、計算コストは削減されている。
論文参考訳（メタデータ） (2023-08-10T15:18:16Z)
Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-21T22:41:58Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Modular decoding: parallelizable real-time decoding for quantum computers [55.41644538483948]
リアルタイム量子計算は、ノイズの多い量子ハードウェアによって生成されたデータのストリームから論理的な結果を取り出すことができる復号アルゴリズムを必要とする。本稿では,デコーディングの精度を犠牲にすることなく,最小限の追加通信でこの問題に対処できるモジュールデコーディングを提案する。本稿では,格子探索型耐故障ブロックのモジュールデコーディングの具体例であるエッジ頂点分解について紹介する。
論文参考訳（メタデータ） (2023-03-08T19:26:10Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。