論文の概要: EULER-ADAS: Energy-Efficient & SIMD-Unified Logarithmic-Posit Engine for Precision-Reconfigurable Approximate ADAS Acceleration
- arxiv url: http://arxiv.org/abs/2605.06875v1
- Date: Thu, 07 May 2026 19:20:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.575294
- Title: EULER-ADAS: Energy-Efficient & SIMD-Unified Logarithmic-Posit Engine for Precision-Reconfigurable Approximate ADAS Acceleration
- Title(参考訳): EULER-ADAS:精密再構成可能な近似ADAS加速のためのエネルギー効率・SIMD統一対数ポジットエンジン
- Authors: Mukul Lokhande, Ratko Pilipovic, Omkar Kokane, Adam Teman, Santosh Kumar Vishvakarma,
- Abstract要約: EULER-ADASは、エネルギー効率と信頼性を意識したADASアクセラレーションのためのSIMD対応の対数有界型ニューラルネットワークエンジンである。
提案したデータパスは,有界正規化ポジット表現,段階適応対数マンティサ乗算とビットトランケーション,SIMD共有クイア蓄積経路を組み合わせたものである。
FPGAの実装により、提案された構成により、LUT数を41.4%、遅延を76.1%、パワーを71.9%削減できる。
- 参考スコア(独自算出の注目度): 0.12314765641075437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced driver-assistance systems (ADAS) require neural compute engines that deliver low-latency inference under strict power and area constraints. Posit arithmetic is attractive for such accelerators because it provides high numerical fidelity at low precision, but its variable-length regime encoding increases encode/decode cost and exposes the datapath to large regime-field fault effects. This paper presents EULER-ADAS, a SIMD-enabled logarithmic bounded-Posit neural compute engine for energyefficient and reliability-aware ADAS acceleration. The proposed datapath combines bounded-regime Posit representation, stageadaptive logarithmic mantissa multiplication with bit truncation, and a SIMD-shared quire accumulation path supporting Posit- (8,0), Posit-(16,1), and Posit-(32,2) execution. The unified architecture enables 4xPosit-8, 2xPosit-16, or 1xPosit-32 operation without duplicating precision-specific hardware. FPGA implementation shows that the proposed configurations reduce LUT count by up to 41.4%, delay by up to 76.1%, and power by up to 71.9% relative to exact Posit neural compute engines, while achieving up to 10x lower energy-delay product than radix-4 Booth-based Posit multipliers. In 28-nm CMOS, the bounded variants occupy 0.013-0.016 mm2 , consume 19.8-22.1 mW, and operate at up to 1.84 GHz. Application-level evaluation across image-classification, ADAS, and edge-inference workloads shows that the evaluated Posit-16 and Posit-32 configurations remain within about 1.5 percentage points of FP32 accuracy. A TinyYOLOv3 prototype on Pynq-Z2 achieves 78 ms latency at 0.29 W and 22.6 mJ/frame, demonstrating the suitability of EULERADAS for low-power real-time ADAS inference.
- Abstract(参考訳): 高度な運転支援システム(ADAS)は、厳格なパワーと領域制約の下で低遅延推論を提供するニューラルネットワークエンジンを必要とする。
ポジット算術は、低精度で高い数値忠実度を提供するため、そのような加速器にとって魅力的であるが、その可変長レジーム符号化はエンコード/デコードコストを増大させ、データパスを大規模なレジーム-フィールド障害効果に公開する。
本稿では,エネルギー効率と信頼性を考慮したADAS加速のためのSIMD対応対数有界ニューラルネットワークエンジンであるEULER-ADASを提案する。
提案したデータパスは、有界正準表現、段階適応対数行列乗算とビットトランケーション、およびPosit- (8,0), Posit-(16,1), Posit- (32,2) 実行をサポートするSIMD共有クイア累積経路を組み合わせたものである。
統一アーキテクチャでは、4xPosit-8、2xPosit-16、または1xPosit-32を精度の高いハードウェアを重複させることなく利用できる。
FPGAの実装により、提案された構成は、LUT数を最大41.4%、遅延を最大76.1%、パワーを最大71.9%削減し、一方、Radix-4 BoothベースのPosit乗算器よりも最大10倍低いエネルギー遅延積を実現している。
28nm CMOSは0.013-0.016 mm2で19.8-22.1 mWを消費し、最大1.84GHzで動作する。
画像分類、ADAS、エッジ推論のワークロードにわたるアプリケーションレベルの評価は、評価されたPosit-16とPosit-32の構成がFP32精度の1.5パーセント以内であることを示している。
Pynq-Z2 の TinyYOLOv3 プロトタイプは 78 ms のレイテンシを 0.29 W と 22.6 mJ/frame で達成し、低消費電力のリアルタイム ADAS 推論における EULERADAS の適合性を実証した。
関連論文リスト
- CARMEN: CORDIC-Accelerated Resource-Efficient Multi-Precision Inference Engine for Deep Learning [0.13048920509133807]
本稿では,資源効率の高いディープラーニング推論のための実行時適応型CORDIC高速化多精度ベクトルエンジンを提案する。
このアーキテクチャは、低リソースの繰り返しCORDICベースのMACユニットと、時間多重化マルチアクティベーション関数ブロックを統合している。
PynqZ2上のFPGA配置は、リアルタイムオブジェクト検出のために0.03Wで154.6msのレイテンシを検証する。
論文 参考訳(メタデータ) (2026-05-07T19:25:21Z) - EdgeSpike: Spiking Neural Networks for Low-Power Autonomous Sensing in Edge IoT Architectures [0.0]
EdgeSpikeは、エッジモノのインターネット(IoT)アーキテクチャにおける自律的低電力センシングのための、共同設計のスパイクニューラルネットワーク(SNN)フレームワークである。
ハイブリッドなサロゲートグレートとダイレクトエンコーディングのトレーニングパイプライン、ハードウェア対応のニューラルアーキテクチャサーチ、イベント駆動ランタイムを統一する。
強力なINT8畳み込みニューラルネットワーク(CNN)ベースラインの1.2ポイント(pp)以内の平均分類精度は91.4%である。
論文 参考訳(メタデータ) (2026-04-29T05:15:28Z) - BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - L-SPINE: A Low-Precision SIMD Spiking Neural Compute Engine for Resource-efficient Edge Inference [0.0]
L-SPINEは、効率的なエッジ推論のための低精度SIMD対応スパイクニューラルネットワークエンジンである。
このアーキテクチャは、2ビット、4ビット、8ビット操作をサポートする統合されたマルチ精度データパスを備えている。
L-SPINEは46.37K LUTs、30.4K FFs、2.38msのレイテンシ、0.54Wの電力を実現している。
論文 参考訳(メタデータ) (2026-04-04T07:46:16Z) - MXNorm: Reusing MXFP block scales for efficient tensor normalisation [39.74786083127591]
我々は、MXFP8キャストの一部として計算されたブロックスケールのみを用いてRMSを推定するRMSNormのドロップイン置換であるMXNormを提案する。
我々は,MXFP8のLlama 3 8B変換器層における1.3%の高速化とNVFP4の2.6%の高速化に対応して,MXNorm上のトーチ.コンパイルを最大2.4倍のRMSNormで実行した。
論文 参考訳(メタデータ) (2026-03-13T17:14:06Z) - SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking [4.962717354668883]
ShiELD8-UAV (ShielD8-UAV) は、高精度1D機能駆動CNNアクセラレータのシーケンシャルな8ビットハードウェア実装である。
この設計は共有マルチ精度データパス上で層単位で実行し、複製された処理要素を不要にする。
その結果、逐次実行と高精度量子化とシリアライズ対応プルーニングを組み合わせることで、実用的な低エネルギーエッジ推論が可能となった。
論文 参考訳(メタデータ) (2026-03-01T12:09:15Z) - A Deployment-Friendly Foundational Framework for Efficient Computational Pathology [48.3868019137117]
モデルオーバーパラメータ化とパッチレベルの冗長性を緩和するLitePathを提案する。
LitePathは、1億9000万のパッチを使用して3つの大きなPFMから蒸留されたコンパクトなモデルであるLiteFMを統合している。
LitePathはVirchhow2より104.5倍高速で、3000のスライドに対して0.36 kWhを消費する。
論文 参考訳(メタデータ) (2026-02-15T06:31:50Z) - SPADE: A SIMD Posit-enabled compute engine for Accelerating DNN Efficiency [0.12314765641075437]
本研究では,多精度SIMD Posit-based multiplyaccumulate (MAC)アーキテクチャを統一したSPADEを提案する。
従来の単精度や浮動小数点SIMD MACとは異なり、SPADEはレギュラー対応のレーン融合SIMD Positデータパスを導入している。
Xilinx Virtex-7上のFPGA実装では、Posit (8,0) の45.13%のLUTと80%のスライス削減、Posit (16,1) と Posit (32,2) の最大28.44%と17.47%の改善がある。
論文 参考訳(メタデータ) (2026-01-24T03:38:11Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - CoDeNet: Efficient Deployment of Input-Adaptive Object Detection on
Embedded FPGAs [41.43273142203345]
FPGAの柔軟性を利用して、変形可能な畳み込みを伴う新しいオブジェクト検出パイプラインを開発する。
高効率実装では、ソリューションは毎秒26.9フレームに達し、小さなモデルサイズは0.76MBである。
我々のモデルはPascal VOCで67.1 AP50に達し、パラメータは20.9倍小さいがTiny-YOLOより10%正確である。
論文 参考訳(メタデータ) (2020-06-12T17:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。