論文の概要: Yet another Improvement of Plantard Arithmetic for Faster Kyber on
Low-end 32-bit IoT Devices
- arxiv url: http://arxiv.org/abs/2309.00440v3
- Date: Sun, 18 Feb 2024 05:49:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:56:41.648469
- Title: Yet another Improvement of Plantard Arithmetic for Faster Kyber on
Low-end 32-bit IoT Devices
- Title(参考訳): ローエンド32ビットIoTデバイス上での高速KyberのためのPlanard Arithmeticの改良
- Authors: Junhao Huang, Haosong Zhao, Jipeng Zhang, Wangchen Dai, Lu Zhou, Ray
C.C. Cheung, Cetin Kaya Koc, Donglong Chen
- Abstract要約: 我々は、定数によるプランタード乗算の入力範囲が、TCHES2022の元の設計より少なくとも2.14倍大きいことを示す。
NTT/INTTの最適化手法を提案する。
我々のNTT/INTT実装は、最先端の作業と比べてかなりのスピードアップを示している。
- 参考スコア(独自算出の注目度): 14.32828779824487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents another improved version of Plantard arithmetic that
could speed up Kyber implementations on two low-end 32-bit IoT platforms (ARM
Cortex-M3 and RISC-V) without SIMD extensions. Specifically, we further enlarge
the input range of the Plantard arithmetic without modifying its computation
steps. After tailoring the Plantard arithmetic for Kyber's modulus, we show
that the input range of the Plantard multiplication by a constant is at least
2.14 times larger than the original design in TCHES2022. Then, two optimization
techniques for efficient Plantard arithmetic on Cortex-M3 and RISC-V are
presented. We show that the Plantard arithmetic supersedes both Montgomery and
Barrett arithmetic on low-end 32-bit platforms. With the enlarged input range
and the efficient implementation of the Plantard arithmetic on these platforms,
we propose various optimization strategies for NTT/INTT. We minimize or
entirely eliminate the modular reduction of coefficients in NTT/INTT by taking
advantage of the larger input range of the proposed Plantard arithmetic on
low-end 32-bit platforms. Furthermore, we propose two memory optimization
strategies that reduce 23.50% to 28.31% stack usage for the speed-version Kyber
implementation when compared to its counterpart on Cortex-M4. The proposed
optimizations make the speed-version implementation more feasible on low-end
IoT devices. Thanks to the aforementioned optimizations, our NTT/INTT
implementation shows considerable speedups compared to the state-of-the-art
work. Overall, we demonstrate the applicability of the speed-version Kyber
implementation on memory-constrained IoT platforms and set new speed records
for Kyber on these platforms.
- Abstract(参考訳): 本稿では、SIMD拡張のない2つのローエンド32ビットIoTプラットフォーム(ARM Cortex-M3とRISC-V)上でKyberの実装を高速化するPlanard演算の別の改良版を提案する。
具体的には、計算ステップを変更することなく、Planard演算の入力範囲をさらに拡大する。
Kyber のモジュラーに対して、Planard 算術を調整した後、定数によるPlanard 乗算の入力範囲は、TCHES2022 の元の設計よりも少なくとも2.14倍大きいことを示す。
次に, Cortex-M3 と RISC-V の2つの最適化手法を提案する。
プランタード算術はローエンド32ビットプラットフォーム上でモンゴメリー算術とバレット算術の両方に取って代わることを示す。
これらのプラットフォーム上でのインプット範囲の拡大とPlanard演算の効率的な実装により,NTT/INTTの最適化手法を提案する。
ローエンド32ビットプラットフォーム上で提案したPlanard演算の入力範囲を大きくすることで,NTT/INTTにおける係数のモジュラー化を最小化あるいは完全に排除する。
さらに,2つのメモリ最適化手法を提案し,cortex-m4に比較して,速度変換kyber実装のスタック使用率を23.50%から28.31%に削減した。
提案した最適化により、ローエンドIoTデバイス上でのスピードバージョン実装がより実現可能になった。
上記の最適化のおかげで、NTT/INTTの実装は最先端の作業と比べてかなりスピードアップしている。
全体として、メモリ制限されたIoTプラットフォーム上での速度変換Kyberの実装の適用性を示し、これらのプラットフォーム上でKyberの新しい速度記録を設定します。
関連論文リスト
- EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - KyberMat: Efficient Accelerator for Matrix-Vector Polynomial Multiplication in CRYSTALS-Kyber Scheme via NTT and Polyphase Decomposition [20.592217626952507]
CRYSTAL-Kyber (Kyber) は、標準化プロセス中に選択された暗号鍵カプセル化機構 (KEM) の1つである。
本稿では,Kyberアーキテクチャのレイテンシとスループットの制約に対する最適化について述べる。
論文 参考訳(メタデータ) (2023-10-06T22:57:25Z) - Reduced Precision Floating-Point Optimization for Deep Neural Network
On-Device Learning on MicroControllers [15.37318446043671]
本稿では,MCUクラスデバイス上でのオンデバイス学習(ODL)プリミティブに対して,新しい精度最適化手法を提案する。
我々のアプローチは、シングルコアMCUのための既存のODLソフトウェアフレームワークよりも2桁以上高速である。
論文 参考訳(メタデータ) (2023-05-30T16:14:16Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。