論文の概要: Benchmarking Post-Quantum Cryptography on Resource-Constrained IoT Devices: ML-KEM and ML-DSA on ARM Cortex-M0+
- arxiv url: http://arxiv.org/abs/2603.19340v2
- Date: Wed, 25 Mar 2026 06:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 14:25:25.876062
- Title: Benchmarking Post-Quantum Cryptography on Resource-Constrained IoT Devices: ML-KEM and ML-DSA on ARM Cortex-M0+
- Title(参考訳): リソース制約されたIoTデバイス上でのポスト量子暗号のベンチマーク:ARM Cortex-M0+上でのML-KEMとML-DSA
- Authors: Rojin Chhetri,
- Abstract要約: 本稿では,ARM Cortex-M0+プロセッサ上でML-KEMとML-DSAを分離したアルゴリズムレベルベンチマークを提案する。
PQClean参照Cの実装を用いて、キー生成、カプセル化/署名、カプセル化/検証の3つのセキュリティレベルをすべて計測する。
すべてのコード、データ、スクリプトは、開発者のためのオープンソースのベンチマークスイートとしてリリースされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The migration to post-quantum cryptography is urgent for Internet of Things devices with 10-20 year lifespans, yet no systematic benchmarks exist for the finalised NIST standards on the most constrained 32-bit processor class. This paper presents the first isolated algorithm-level benchmarks of ML-KEM (FIPS 203) and ML-DSA (FIPS 204) on ARM Cortex-M0+, measured on the RP2040 (Raspberry Pi Pico) at 133 MHz with 264 KB SRAM. Using PQClean reference C implementations, we measure all three security levels of ML-KEM (512/768/1024) and ML-DSA (44/65/87) across key generation, encapsulation/signing, and decapsulation/verification. ML-KEM-512 completes a full key exchange in 36.3 ms consuming 2.87 mJ--17x faster and 94% less energy than ECDH P-256 on the same hardware. ML-DSA signing exhibits high latency variance due to rejection sampling (coefficient of variation 61-71%, 99th-percentile up to 1,115 ms for ML-DSA-87). The M0+ incurs only a 1.8-1.9x slowdown relative to published Cortex-M4 results, despite lacking 64-bit multiply, DSP, and SIMD instructions. All code, data, and scripts are released as an open-source benchmark suite for reproducibility.
- Abstract(参考訳): 量子後暗号への移行は10~20年の寿命を持つIoTデバイスにとって急務であるが、最も制約のある32ビットプロセッサクラスのNIST標準の体系的なベンチマークは存在しない。
本稿では,ARM Cortex-M0+上のML-KEM(FIPS 203)とML-DSA(FIPS 204)を,133MHzで264KBのSRAMで測定した。
ML-KEM (512/768/1024) とML-DSA (44/65/87) の3つのセキュリティレベルをキー生成、カプセル化/署名、カプセル化/検証で計測する。
ML-KEM-512は36.3msでフルキー交換を完了し、2.87mJ--17xを高速に消費し、同じハードウェア上でのECDH P-256よりも94%少ないエネルギーを消費した。
ML-DSA署名は、リジェクションサンプリング(61-71%、99パーセント、ML-DSA-87では1,115ms)による高い遅延ばらつきを示す。
M0+は64ビット乗算、DSP、SIMD命令が欠けているにもかかわらず、Cortex-M4の結果と比較して1.8-1.9倍の減速しか発生しない。
すべてのコード、データ、スクリプトは、再現性のためのオープンソースのベンチマークスイートとしてリリースされている。
関連論文リスト
- Post-Quantum Entropy as a Service for Embedded Systems [0.0]
我々は、QRNG由来のエントロピーをQuantisデバイスからESP32クラスのクライアントへ、クォータム後セキュアなチャネル上で移動させる量子エントロピー・アズ・ア・サービス(QE)システムを構築した。
サーバ側では、カスタムOpenSSLプロバイダ経由の直接量子エントロピーと、Linuxシステムプール経由の混合エントロピーの2つのパスを公開する。
論文 参考訳(メタデータ) (2026-03-10T23:09:55Z) - FERMI-ML: A Flexible and Resource-Efficient Memory-In-Situ SRAM Macro for TinyML acceleration [0.0]
FERMI-MLは、混合精度のTinyMLワークロードをサポートするMemory-In-Situマクロである。
65nmでは350MHz、0.9Vでは1.93TOPS、エネルギー効率は364TOPS/Wとなる。
論文 参考訳(メタデータ) (2025-11-16T10:39:42Z) - A Constant-Time Hardware Architecture for the CSIDH Key-Exchange Protocol [0.6597195879147555]
本稿では,FPGAおよびASICプラットフォーム上でのCSIDHの包括的ハードウェア研究について述べる。
CSIDH-512の定時設計では、鍵発生1回あたりのクロックサイクルは1.03時間108ドルである。
180nmプロセスでのASIC実装では、設計には1.065times108$クロックサイクルが必要であり、アシトールデ180MHzの周波数を実現し、キー生成遅延は591msである。
論文 参考訳(メタデータ) (2025-08-14T21:37:29Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Faster Post-Quantum TLS 1.3 Based on ML-KEM: Implementation and Assessment [5.483288991845528]
TLSはネットワーク上のセキュアなデータ伝送に広く利用されている。
量子脅威に対抗するためには、量子後アルゴリズムをTLSに統合することが不可欠である。
TLSプロトコルでは、ハンドシェイク性能が重要であり、後量子TLS(PQ-TLS)では、後量子鍵カプセル化機構(KEM)の性能がハンドシェイク性能に直接影響を及ぼす。
論文 参考訳(メタデータ) (2024-04-21T05:59:04Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。