論文の概要: Low-Stack HAETAE for Memory-Constrained Microcontrollers
- arxiv url: http://arxiv.org/abs/2604.15868v1
- Date: Fri, 17 Apr 2026 09:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.854109
- Title: Low-Stack HAETAE for Memory-Constrained Microcontrollers
- Title(参考訳): メモリ制約マイクロコントローラ用低スタックHAETAE
- Authors: Gustavo Banegas, Kim Youngbeom, Seo Seog Chung, Vredendaal Christine Van,
- Abstract要約: 本稿では,モジュール格子署名スキームHAETAEの低スタック実装について述べる。
マイクロコントローラでは、ピークスタックの使用はしばしば制約に結びついており、HAETAEのハイパーボールベースのサンプリングは特別な課題を提起する。
本稿では,符号後パスパスを分離したRejection-awareパス分解法を提案する。
HAETAE-2, -3, -5スタックを鍵生成で75, 86, 8%, 署名生成で92, 95, 24%, 検証で85, 91, 22%削減する。
- 参考スコア(独自算出の注目度): 0.1749935196721634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a low-stack implementation of the module-lattice signature scheme HAETAE, targeting microcontrollers with 8 kB-16 kB of available SRAM. On such devices, peak stack usage is often the binding constraint, and HAETAE's hyperball-based sampler, large transient polynomial vectors, and variable-length signature payloads (hint and high-bits arrays) pose a particular challenge. To address this we introduce (i) Rejection-aware pass decomposition, which isolates encoding to the post-acceptance path; (ii) Component-level early rejection, which short-circuits the response computation when a partial norm already exceeds the bound; and (iii) Reverse-order streaming entropy coding using range Asymmetric Numeral Systems (rANS), which eliminates full hint and high-bits staging buffers. Combined with streamed matrix generation, a two-pass hyperball sampler with streaming Gaussian backend, and row-streamed verification, these techniques bring Signing stack from 71 kB-141 kB in the reference implementation down to 5.8 kB-6.0 kB, key generation to 4.7 kB-5.7 kB, and verification to 4.7 kB-4.8 kB across all three security levels. Our pure C implementation covers all three security levels (HAETAE-2/3/5), whose optimization paths differ due to the public-key domain (d>0 vs. d=0) and rejection structure. We implement our optimization on a Nucleo-L4R5ZI and compare to the reference pqm4 (for HAETAE-2 and -3) and a recently published memory-optimized implementation (targeting HAETAE-5 only). We reduce HAETAE-2, -3, and -5 stack by respectively 75, 86 and 8 % for key generation, 92, 95 and 24 % for signature generation, and 85, 91 and 22 % for verification. Depending on the parameter set, this impacts performance by at most a factor 1.8 and 3.4 for key and signature generation respectively, while even offering a performance improvement up to 18 % for verification. Verification at all security levels fits within 8 kB of RAM (signature buffer + stack) and is 2.34-3.34x faster than ML-DSA m4fstack at each comparable security level. We additionally validate portability under RIOT-OS on ARM Cortex-M4 and RISC-V targets.
- Abstract(参考訳): 本稿では8kB-16kBのマイクロコントローラをターゲットとしたモジュール格子署名方式HAETAEの低スタック実装を提案する。
このようなデバイスでは、ピークスタックの使用はしばしば結合制約であり、HAETAEのハイパーボールベースのサンプリング器、大きな過渡多項式ベクトル、および可変長シグネチャペイロード(ハイビット配列とハイビット配列)は特別な課題となる。
これに対応するために紹介する
一 拒絶を意識したパス分解であって、後受入経路へのエンコーディングを分離すること。
(ii)部分ノルムが既に境界を超えている場合に応答計算をショートサーキットする成分レベルの早期拒絶
三 レンジ非対称数値システム(rANS)を用いた逆順ストリーミングエントロピー符号化により、完全ヒントとハイビットステージングバッファを除去する。
ストリーム行列生成、ストリーミングガウシアンバックエンドを備えた2パスのハイパーボールサンプリング、および行ストリーム検証と組み合わせて、これらの技術は参照実装において71kB-141kBから5.8kB-6.0kBに、キー生成は4.7kB-5.7kBに、検証は3つのセキュリティレベルすべてで4.7kB-4.8kBに、署名スタックは71kB-141kBになった。
我々の純粋なC実装は、パブリックキードメイン(d>0 vs. d=0)と拒絶構造のために最適化パスが異なる3つのセキュリティレベル(HAETAE-2/3/5)をすべてカバーしています。
我々はNucleo-L4R5ZIに最適化を実装し、参照pqm4(HAETAE-2と-3)と最近発表されたメモリ最適化実装(HAETAE-5のみを対象として)を比較した。
HAETAE-2, -3, -5スタックを鍵生成で75, 86, 8%, 署名生成で92, 95, 24%, 検証で85, 91, 22%削減する。
パラメータセットによっては、それぞれキー生成とシグネチャ生成の少なくとも1.8と3.4のパフォーマンスに影響を与える。
すべてのセキュリティレベルの検証は、RAMの8kB (signature buffer + stack) の範囲に収まり、ML-DSA m4fstack よりも2.34-3.34倍高速である。
さらに、ARM Cortex-M4およびRISC-Vターゲット上でのRIOT-OSによるポータビリティを検証する。
関連論文リスト
- Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels [83.99688944263843]
DoRA(Weight-De Low-Rank Adaptation)は、LoRAを方向から分離することで拡張する。
d_in = 8192 とランク r = 384 では、単一のモジュールのノルムは bf16 で512MB の過渡的なワーキングメモリを必要とする。
因子ノルムは、二乗ノルムを O(d_out r + r2) 中間体を通して計算可能な基底、交差、およびグラマー項に分解し、密積を除去する。
論文 参考訳(メタデータ) (2026-03-23T17:57:24Z) - Benchmarking Post-Quantum Cryptography on Resource-Constrained IoT Devices: ML-KEM and ML-DSA on ARM Cortex-M0+ [0.0]
本稿では,ARM Cortex-M0+プロセッサ上でML-KEMとML-DSAを分離したアルゴリズムレベルベンチマークを提案する。
PQClean参照Cの実装を用いて、キー生成、カプセル化/署名、カプセル化/検証の3つのセキュリティレベルをすべて計測する。
すべてのコード、データ、スクリプトは、開発者のためのオープンソースのベンチマークスイートとしてリリースされている。
論文 参考訳(メタデータ) (2026-03-19T11:27:29Z) - Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study [0.0]
AMD Instinct MI325X GPUにおけるLCM推定のクロスアーキテクチャ評価
3つのアーキテクチャファミリにまたがる235Bから1兆のパラメータにまたがる4つのモデルのベンチマーク。
論文 参考訳(メタデータ) (2026-02-27T13:21:48Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - Next Block Prediction: Video Generation via Semi-Autoregressive Modeling [92.60177942930946]
Next-Block Prediction (NBP) は、ビデオ生成のための半自己回帰(セミAR)フレームワークである。
NBPは各ブロック内で双方向の注意を払っており、トークンはより堅牢な空間依存をキャプチャすることができる。
本モデルでは,UCF101では103.3点,K600では25.5点,バニラNTPモデルでは4.4点,FVDスコアは25.5点であった。
論文 参考訳(メタデータ) (2025-02-11T17:57:53Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。