論文の概要: XR-NPE: High-Throughput Mixed-precision SIMD Neural Processing Engine for Extended Reality Perception Workloads
- arxiv url: http://arxiv.org/abs/2508.13049v1
- Date: Mon, 18 Aug 2025 16:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.476265
- Title: XR-NPE: High-Throughput Mixed-precision SIMD Neural Processing Engine for Extended Reality Perception Workloads
- Title(参考訳): XR-NPE:拡張現実認識ワークロードのための高精度混合SIMDニューラルプロセッシングエンジン
- Authors: Tejas Chaudhari, Akarsh J., Tanushree Dewangan, Mukul Lokhande, Santosh Kumar Vishvakarma,
- Abstract要約: XR-NPEは、視覚慣性オドメトリー(VIO)、物体分類、視線抽出のような拡張現実(XR)知覚のために設計されている。
結果が公開され、デザイナと研究者が簡単にそれらを採用して構築できるようになる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes XR-NPE, a high-throughput Mixed-precision SIMD Neural Processing Engine, designed for extended reality (XR) perception workloads like visual inertial odometry (VIO), object classification, and eye gaze extraction. XR-NPE is first to support FP4, Posit (4,1), Posit (8,0), and Posit (16,1) formats, with layer adaptive hybrid-algorithmic implementation supporting ultra-low bit precision to significantly reduce memory bandwidth requirements, and accompanied by quantization-aware training for minimal accuracy loss. The proposed Reconfigurable Mantissa Multiplication and Exponent processing Circuitry (RMMEC) reduces dark silicon in the SIMD MAC compute engine, assisted by selective power gating to reduce energy consumption, providing 2.85x improved arithmetic intensity. XR-NPE achieves a maximum operating frequency of 1.72 GHz, area 0.016 mm2 , and arithmetic intensity 14 pJ at CMOS 28nm, reducing 42% area, 38% power compared to the best of state-of-the-art MAC approaches. The proposed XR-NPE based AXI-enabled Matrix-multiplication co-processor consumes 1.4x fewer LUTs, 1.77x fewer FFs, and provides 1.2x better energy efficiency compared to SoTA accelerators on VCU129. The proposed co-processor provides 23% better energy efficiency and 4% better compute density for VIO workloads. XR-NPE establishes itself as a scalable, precision-adaptive compute engine for future resource-constrained XR devices. The complete set for codes for results reproducibility are released publicly, enabling designers and researchers to readily adopt and build upon them. https://github.com/mukullokhande99/XR-NPE.
- Abstract(参考訳): この研究は、視覚慣性オドメトリー(VIO)、オブジェクト分類、視線抽出などの拡張現実(XR)知覚ワークロードのために設計された、高スループットのMixed-precision SIMD Neural Processing EngineであるXR-NPEを提案する。
XR-NPEは、まずFP4、Posit (4,1)、Posit (8,0)、Posit (16,1)フォーマットをサポートする。
提案したReconfigurable Mantissa Multiplication and Exponent Processing Circuitry (RMMEC)はSIMD MAC計算エンジンのダークシリコンを低減し、選択パワーゲーティングによってエネルギー消費を削減し、演算強度を2.85倍改善する。
XR-NPEは最大動作周波数1.72GHz、面積0.016mm2、CMOS 28nmでの演算強度14 pJを実現し、最先端MACアプローチと比較して42%の面積、38%の電力を削減した。
提案したXR-NPEベースのAXI対応マトリックス乗算コプロセッサは1.4倍のLUTを消費し、1.77倍のFFを消費し、VCU129上のSoTAアクセラレータと比較して1.2倍のエネルギー効率を提供する。
提案したコプロセッサは、エネルギー効率が23%向上し、VIOワークロードの計算密度が4%向上する。
XR-NPEは、将来のリソース制約付きXRデバイスのためのスケーラブルで精度の高いコンピュータエンジンとしての地位を確立している。
結果再現性のためのコードセットの完全なセットが公開され、デザイナと研究者が簡単にそれらを採用して構築できるようになる。
https://github.com/mukullokhande99/XR-NPE
関連論文リスト
- DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables [60.95483707212802]
DnLUTは、リソース消費を最小限に抑えながら高品質なカラーイメージを実現する、超効率的なルックアップテーブルベースのフレームワークである。
Pairwise Channel Mixer(PCM)は、チャネル間の相関関係と空間的依存関係を並列に効果的にキャプチャし、L字型畳み込み設計により受容界のカバレッジを最大化する。
これらのコンポーネントをトレーニング後に最適化されたルックアップテーブルに変換することで、DnLUTは、CNNの競合であるDnCNNと比較して500KBのストレージと0.1%のエネルギー消費しか必要とせず、20倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-03-20T08:15:29Z) - Flex-PE: Flexible and SIMD Multi-Precision Processing Element for AI Workloads [0.0]
本研究は,フレキシブル・SIMDマルチ精度処理素子(FlexPE)を提案する。
提案設計では,パイプラインモードで最大16倍FxP4,8倍FxP8,4倍FxP16,1倍FxP32のスループットを実現する。
論文 参考訳(メタデータ) (2024-12-16T12:25:57Z) - Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z) - Q-EEGNet: an Energy-Efficient 8-bit Quantized Parallel EEGNet
Implementation for Edge Motor-Imagery Brain--Machine Interfaces [16.381467082472515]
運動画像脳-機械インタフェース(MI-BMI)は、人間の脳と機械間の直接的かつアクセス可能なコミュニケーションをプロミットする。
脳波信号を分類するためのディープラーニングモデルが登場した。
これらのモデルは、メモリと計算要求のため、エッジデバイスの限界を超えることが多い。
論文 参考訳(メタデータ) (2020-04-24T12:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。