論文の概要: Implementation and Optimization of HQC Decoding on NPU-Integrated Devices
- arxiv url: http://arxiv.org/abs/2606.01968v1
- Date: Mon, 01 Jun 2026 09:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.695905
- Title: Implementation and Optimization of HQC Decoding on NPU-Integrated Devices
- Title(参考訳): NPU集積デバイスにおけるHQCデコードの実装と最適化
- Authors: Vu Minh Chau, Nguyen Ngoc Kiet, Pham Quang Minh, Mai Xuan Ngoc, Nguyen Duc Anh, Hoang Ta,
- Abstract要約: 本稿では,NPU集積デバイスにおけるQualcommヘキサゴンプロセッサのHQCデコードについて検討する。
我々はテンソル推論エンジンではなく、ヘキサゴンベクトルeXtensions (HVX)バックエンドに焦点を当てている。
その結果、ヘキサゴン/HVXによるデコードにより、レイテンシとエネルギー消費が大幅に減少し、ホストCPUの処理を著しくオフロードしながら、最大18.13タイムのエネルギー効率が向上した。
- 参考スコア(独自算出の注目度): 0.6157382820537719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hamming Quasi-Cyclic (HQC) has been selected by NIST for standardization as an additional code-based key-encapsulation mechanism, providing algorithmic diversity alongside lattice-based post-quantum cryptography. Efficient deployment of HQC on mobile and embedded platforms, however, requires careful optimization of its decoding procedure, whose Reed-Muller and Reed-Solomon components dominate the computational cost. This paper studies HQC decoding on Qualcomm Hexagon processors in NPU-integrated devices, focusing on the Hexagon Vector eXtensions (HVX) backend rather than a tensor-inference engine. We observe that HQC decoding naturally exposes vector-structured computation, including Reed-Muller reliability vectors, Hadamard-transform coefficients, Reed-Solomon syndrome vectors, finite-field products, and packed support-point evaluations. Based on this observation, we redesign the dominant decoding kernels around HVX-friendly data layouts and execution patterns, including a vectorized Reed-Muller Hadamard transform, scalar-equivalent peak selection, HVX-oriented finite-field arithmetic, vectorized syndrome computation, and shortened-support locator-root evaluation. We implement and evaluate the optimized decoder using both Hexagon simulator measurements and real-device experiments on a Snapdragon~8 Gen~2 hardware development kit. The results show that Hexagon/HVX-assisted decoding substantially reduces latency and energy consumption, improving energy efficiency by up to $18.13\times$ while significantly offloading host CPU work. These results indicate that NPU-integrated mobile platforms can serve as effective backends for structured post-quantum cryptographic decoding when the underlying kernels are reformulated around vector execution.
- Abstract(参考訳): Hamming Quasi-Cyclic (HQC) は NIST によってコードベースの鍵カプセル化機構として標準化され、格子ベースのポスト量子暗号と共にアルゴリズムの多様性を提供する。
しかし、モバイルおよび組み込みプラットフォームへのHQCの効率的なデプロイには、Reed-MullerとReed-Solomonコンポーネントが計算コストを支配しているデコード手順を慎重に最適化する必要がある。
本稿では,NPU集積デバイスにおけるQualcomm HexagonプロセッサのHQCデコードについて検討し,テンソル推論エンジンではなく,Hexagon Vector eXtensions (HVX)バックエンドに着目した。
HQCデコーディングは,Reed-Muller信頼性ベクトル,Hadamard-transform係数,Reed-Solomon症候群ベクトル,有限体積,および充填されたサポートポイント評価などのベクトル構造計算を自然に公開する。
本研究では,ベクトル化されたリード・ミュラー・アダマール変換,スカラー等価ピーク選択,HVX指向有限フィールド算術,ベクトル化されたシンドローム計算,短縮サポートされたロケータ-ルート評価など,HVXフレンドリーなデータレイアウトと実行パターンを中心に,支配的復号カーネルを再設計する。
我々は、Snapdragon~8 Gen~2ハードウェア開発キット上で、ヘキサゴンシミュレータと実デバイス実験の両方を用いて、最適化されたデコーダを実装し、評価する。
その結果、ヘキサゴン/HVXによるデコードにより、レイテンシとエネルギー消費が大幅に減少し、最大で18.13\times$のエネルギー効率が向上し、ホストCPUワークを著しくオフロードすることがわかった。
これらの結果から,NPU統合モバイルプラットフォームは,ベクトル実行を中心にカーネルを書き換えた場合,構造化後暗号復号に有効なバックエンドとして機能する可能性が示唆された。
関連論文リスト
- Even More Efficient Soft-Output Decoding with Extra-Cluster Growth and Early Stopping [2.370310454459195]
本稿では,境界クラスタギャップとクラスタ外ギャップという2種類の新しいソフトアウトプットを紹介する。
後者は、クラスタ外ギャップであるデコーダの信頼性を、デコーダによって得られたクラスタの小さな追加的な成長によって定量化する。
これらの技術は計算の複雑さを低くし、ハードウェアの互換性を高める。
論文 参考訳(メタデータ) (2026-02-03T10:00:40Z) - OptHQC: Optimize HQC for High-Performance Post-Quantum Cryptography [5.281697362177691]
本稿では,高性能な暗号処理を実現するためのHQCスキームの最適化実装であるOpsHQCを提案する。
提案手法はHQCの各計算ブロックを網羅的に解析し,鍵生成,暗号化,計算の3段階にまたがって最適化を行う。
全体として、OptHQCはCPU上のHQC実装よりも平均55%のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-12-15T01:07:57Z) - TC-GS: A Faster Gaussian Splatting Module Utilizing Tensor Cores [8.422911585027924]
本稿では,アルゴリズムに依存しない汎用モジュールTC-GSを統合し,Core(TCU)を3DGSに適用する。
提案手法は,既存のガウス加速度アルゴリズムを2.18倍高速化し,最大5.6倍の高速化を実現するとともに,レンダリング品質を維持している。
論文 参考訳(メタデータ) (2025-05-30T16:58:18Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Medical Image Segmentation via Sparse Coding Decoder [3.9633192172709975]
トランスフォーマーは、長距離依存関係をキャプチャする能力のため、医療画像のセグメンテーションにおいて大きな成功を収めた。
これまでの研究では、変換器のエンコーダモジュールに畳み込み層が組み込まれていたため、ピクセル間の局所的な関係を学習する能力が向上した。
しかし、変換器はデコーダの空間的回復能力に乏しいため、限定的な一般化能力とロバスト性に悩まされる可能性がある。
論文 参考訳(メタデータ) (2023-10-17T03:08:35Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - Neural Belief Propagation Decoding of Quantum LDPC Codes Using
Overcomplete Check Matrices [60.02503434201552]
元のチェック行列における行の線形結合から生成された冗長な行を持つチェック行列に基づいてQLDPC符号を復号する。
このアプローチは、非常に低い復号遅延の利点を付加して、復号性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-12-20T13:41:27Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Extending C++ for Heterogeneous Quantum-Classical Computing [56.782064931823015]
qcorはC++とコンパイラの実装の言語拡張で、異種量子古典プログラミング、コンパイル、単一ソースコンテキストでの実行を可能にする。
我々の研究は、量子言語で高レベルな量子カーネル(関数)を表現できる、第一種C++コンパイラを提供する。
論文 参考訳(メタデータ) (2020-10-08T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。