Fugu-MT 論文翻訳(概要): ESPM-D: Efficient Sparse Polynomial Multiplication for Dilithium on ARM Cortex-M4 and Apple M2

論文の概要: ESPM-D: Efficient Sparse Polynomial Multiplication for Dilithium on ARM Cortex-M4 and Apple M2

arxiv url: http://arxiv.org/abs/2404.12675v1
Date: Fri, 19 Apr 2024 07:21:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 15:55:43.280612
Title: ESPM-D: Efficient Sparse Polynomial Multiplication for Dilithium on ARM Cortex-M4 and Apple M2
Title（参考訳）: ESPM-D:ARM Cortex-M4およびApple M2上でのジリシウムの効率的なスパース多項式乗算
Authors: Jieyu Zheng, Hong Zhang, Le Tian, Zhuo Zhang, Hanyu Wei, Zhiwei Chu, Yafang Yang, Yunlei Zhao,
Abstract要約: Dilithiumは、NIST量子暗号(PQC)プロジェクトによって標準化された格子ベースのデジタル署名スキームである。 ARM Cortex-M4 と Apple M2 プラットフォーム用の Dilithium の効率的なスパース乗算実装を開発した。私たちの研究は、ARM Cortex-M4とApple M2プラットフォームの両方で、Dilithiumの新たなパフォーマンス記録を設定しています。
参考スコア（独自算出の注目度）: 9.689791463749845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dilithium is a lattice-based digital signature scheme standardized by the NIST post-quantum cryptography (PQC) project. In this study, we focus on developing efficient sparse polynomial multiplication implementations of Dilithium for ARM Cortex-M4 and Apple M2, which are both based on the ARM architecture. The ARM Cortex-M4 is commonly utilized in resource-constrained devices such as sensors. Conversely, the Apple M2 is typically found on mobile devices, emphasizing high performance and versatility. Accordingly, our optimization strategies differ between ARM Cortex-M4 and Apple M2. We prioritize optimizing stack usage for the former while enhancing computational efficiency for the latter. Our optimized sparse polynomial multiplication achieves significant speedups of up to 30% on ARM Cortex-M4 and 55% on Apple M2 compared to the state-of-the-art Number-Theoretic Transform (NTT) implementation. Additionally, we integrate the sparse polynomial multiplication with the infinity norm judgments in the Dilithium signing process, further enhancing signing efficiency. Our optimized implementation not only reduces stack usage by 10.8%, 1.2%, and 7.7% in the signing procedure of Dilithium2, Dilithium3, and Dilithium5, respectively, but also enhances signing performance by 0.4% to 0.8% compared to the state-of-the-art ARM Cortex-M4 implementation. Furthermore, we optimize polynomial sampling, rounding functions, and polynomial packing and unpacking using ARM Cortex-M4 DSP instructions, resulting in a 0.4%-3.2% improvement in key generation and verification procedures. On the MacBook Air 2022, our Dilithium implementation achieves 10% to 11% speedups in the signing procedure. To the best of our knowledge, our work sets new performance records for Dilithium on both ARM Cortex-M4 and Apple M2 platforms.
Abstract（参考訳）: Dilithiumは、NISTポスト量子暗号(PQC)プロジェクトによって標準化された格子ベースのデジタル署名スキームである。本研究では,ARM アーキテクチャをベースとした ARM Cortex-M4 と Apple M2 用の Dilithium の効率的な疎多項式乗算実装の開発に焦点をあてる。 ARM Cortex-M4は、センサーなどのリソース制限されたデバイスで一般的に使用される。逆に、Apple M2はモバイルデバイスで一般的に見られ、高性能と汎用性を強調している。したがって、最適化戦略はARM Cortex-M4とApple M2で異なります。計算効率を向上しつつ,前者に対してスタック使用率の最適化を優先する。最適化されたスパース多項式乗算は、最先端のNumber-theoretic Transform(NTT)実装と比較して、ARM Cortex-M4で最大30%、Apple M2で55%の大幅な高速化を実現している。さらに、このスパース多項式乗法をディリシウム署名プロセスにおける無限ノルム判定と統合し、さらに署名効率を向上する。最適化された実装は,Dilithium2,Dilithium3,Dilithium5の署名手順において,スタック使用率を10.8%,1.2%,7.7%削減するだけでなく,最先端のARM Cortex-M4実装と比較して,署名性能を0.4%から0.8%向上させる。さらに、ARM Cortex-M4 DSP命令を用いて、多項式サンプリング、丸み関数、および多項式パッケージングを最適化し、鍵生成および検証手順を0.4%-3.2%改善する。 MacBook Air 2022では、Dilithiumの実装は署名手順で10%から11%のスピードアップを実現しています。我々の知る限りでは、私たちの研究はARM Cortex-M4とApple M2プラットフォームの両方で、Dilithiumの新たなパフォーマンス記録を設定しています。

関連論文リスト

MicroMix: Efficient Mixed-Precision Quantization with Microscaling Formats for Large Language Models [3.305409455598179]
量子化は大規模言語モデル(LLM)の推論を著しく加速する近年のウェイトアクティベーション量子化の進歩は、主にウェイトとアクティベーションの両方をINT4フォーマットにマッピングすることに焦点を当てている。マイクロスケーリング(MX)データフォーマットをベースとした混合精度量子化アルゴリズムと行列乗算カーネルであるMicroMixを提案する。
論文参考訳（メタデータ） (2025-08-04T12:22:39Z)
EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文参考訳（メタデータ） (2025-05-20T02:27:08Z)
BitNet b1.58 2B4T Technical Report [118.78752947128682]
BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。 4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-04-16T17:51:43Z)
Exploring the Performance Improvement of Tensor Processing Engines through Transformation in the Bit-weight Dimension of MACs [8.17483100683993]
我々は,乗算器(MAC)のビット重み次元に着目した,行列乗算に関する新しいハードウェア視点を導入する。タイミング,面積,消費電力を改善する4つの最適化手法を提案する。本手法は, 1.27x, 1.28x, 1.56x, 1.44xの面積効率向上と1.04x, 1.56x, 1.49x, 1.20xのエネルギー効率向上を実現する。
論文参考訳（メタデータ） (2025-03-08T21:21:23Z)
Lightweight Neural App Control [42.820784178464656]
本稿では,様々なAndroidアプリ間での効率的なインタラクションとコントロールを実現するために,新しい携帯電話制御アーキテクチャである「アプリエージェント」を紹介した。提案された軽量マルチモーダルアプリ制御(LiMAC)は、スクリーンショットや対応するUIツリーなどの過去のモバイル観測のテキスト目標とシーケンスを入力として、正確なアクションを生成する。
論文参考訳（メタデータ） (2024-10-23T13:57:00Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文参考訳（メタデータ） (2024-10-16T02:16:53Z)
Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。 CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文参考訳（メタデータ） (2024-09-25T11:10:33Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
MEMA Runtime Framework: Minimizing External Memory Accesses for TinyML on Microcontrollers [3.1823074562424756]
本稿では,TinyMLシステムにおける行列乗算のための外部メモリアクセスを最小限に抑える,効率的な推論ランタイムのためのMEMAフレームワークを提案する。我々は,MEMAから派生したランタイムと,ARMベースのTinyMLシステム上での既存の最先端ライブラリのパフォーマンスを比較した。
論文参考訳（メタデータ） (2023-04-12T00:27:11Z)
SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文参考訳（メタデータ） (2023-03-27T17:59:58Z)
ARM 4-BIT PQ: SIMD-based Acceleration for Approximate Nearest Neighbor Search on ARM [5.958428749954089]
ARMアーキテクチャ上での4ビット製品量子化(PQ)を高速化する。 ARM固有のNEON命令を用いて各シャッフル操作を適用する。実験の結果,提案手法は同じ精度で単純PQよりも10倍改善できることがわかった。
論文参考訳（メタデータ） (2022-03-03T06:19:51Z)
A TinyML Platform for On-Device Continual Learning with Quantized Latent Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。 10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文参考訳（メタデータ） (2021-10-20T11:01:23Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)
Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。脳波信号を分類するためのディープラーニングモデルが登場した。これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文参考訳（メタデータ） (2020-04-24T12:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。