論文の概要: CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications
- arxiv url: http://arxiv.org/abs/2602.19268v1
- Date: Sun, 22 Feb 2026 16:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.556169
- Title: CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications
- Title(参考訳): CORVET: 高速AIoTアプリケーションのためのCORDIC駆動、リソースフルーガー混合精度ベクトル処理エンジン
- Authors: Sonu Kumar, Mohd Faisal Khan, Mukul Lokhande, Santosh Kumar Vishvakarma,
- Abstract要約: 本稿では、エッジAIアクセラレーションのための低リソース繰り返しCORDICベースのMACユニットを備えた、ランタイム適応型、パフォーマンス向上ベクタエンジンを提案する。
提案した設計により、近似モードと正確なモードの動的再構成が可能となり、幅広いワークロードの遅延精度トレードオフを利用することができる。
ASIC実装の結果、各MACステージは256-PE構成で最大33%の時間と21%の電力を節約できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This brief presents a runtime-adaptive, performance-enhanced vector engine featuring a low-resource, iterative CORDIC-based MAC unit for edge AI acceleration. The proposed design enables dynamic reconfiguration between approximate and accurate modes, exploiting the latency-accuracy trade-off for a wide range of workloads. Its resource-efficient approach further enables up to 4x throughput improvement within the same hardware resources by leveraging vectorised, time-multiplexed execution and flexible precision scaling. With a time-multiplexed multi-AF block and a lightweight pooling and normalisation unit, the proposed vector engine supports flexible precision (4/8/16-bit) and high MAC density. The ASIC implementation results show that each MAC stage can save up to 33% of time and 21% of power, with a 256-PE configuration that achieves higher compute density (4.83 TOPS/mm2 ) and energy efficiency (11.67 TOPS/W) than previous state-of-the-art work. A detailed hardware-software co-design methodology for object detection and classification tasks on Pynq-Z2 is discussed to assess the proposed architecture, demonstrating a scalable, energy-efficient solution for edge AI applications.
- Abstract(参考訳): 本稿では、エッジAIアクセラレーションのための低リソース繰り返しCORDICベースのMACユニットを備えた、ランタイム適応型、パフォーマンス向上ベクタエンジンを提案する。
提案した設計により、近似モードと正確なモードの動的再構成が可能となり、幅広いワークロードの遅延精度トレードオフを利用することができる。
リソース効率のアプローチにより、ベクトル化、時間多重実行、フレキシブルな精度スケーリングを活用することにより、同じハードウェアリソース内で最大4倍のスループット向上が可能になる。
時間多重化マルチAFブロックと軽量プールおよび正規化ユニットにより、提案したベクトルエンジンは柔軟な精度(4/8/16ビット)とMAC密度をサポートする。
ASIC実装の結果、各MACステージは最大33%の時間と21%の電力を節約でき、256-PE構成で計算密度(4.83 TOPS/mm2)とエネルギー効率(11.67 TOPS/W)を以前の最先端技術よりも高めることができることがわかった。
Pynq-Z2のオブジェクト検出と分類タスクのためのハードウェアとソフトウェアの詳細な共同設計手法を議論し、エッジAIアプリケーションのためのスケーラブルでエネルギー効率の良いソリューションを実証した。
関連論文リスト
- RAMAN: Resource-efficient ApproxiMate Posit Processing for Algorithm-Hardware Co-desigN [0.0]
この研究は、リソース効率が高く近似的なposit(8,2)ベースのMultiply-Accumulate (MAC)アーキテクチャであるRAMANを提示する。
提案するREAP MACエンジンはRAMANのコアであり,ポジット乗算器の近似を用いて,大幅な面積と消費電力削減を実現する。
論文 参考訳(メタデータ) (2025-10-26T11:09:06Z) - ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization [99.96330641363396]
ARMOR: (Adaptive Representation with Matrix-factorization) は、新しい1ショットのポストトレーニングプルーニングアルゴリズムである。
ARMORは重量を直接刈る代わりに、各重量行列を2:4のスパースコアに分解する。
ARMORは、幅広いダウンストリームタスクとパープレキシティ評価において、最先端の2:4プルーニング手法よりも一貫して、はるかに優れています。
論文 参考訳(メタデータ) (2025-10-07T02:39:20Z) - POLARON: Precision-aware On-device Learning and Adaptive Runtime-cONfigurable AI acceleration [0.0]
本研究は,効率的な乗算累積演算を行うSIMD対応マルチ精度MACエンジンを提案する。
このアーキテクチャは、計算精度をワークロードの感度に合わせるための層適応的精度戦略を取り入れている。
その結果,PDPは最大で2倍,資源使用量は3倍に改善した。
論文 参考訳(メタデータ) (2025-06-10T13:33:02Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - CORDIC Is All You Need [0.18184027690235535]
線形MAC計算と非線形反復活性化関数のためのCORDICブロックを用いたパイプラインアーキテクチャを提案する。
このアプローチでは、Reconfigurable Processing Engine(RPE)ベースのsystolic配列に重点を置いている。
FPGAの実装により、リソースの節約に2.5ドル、以前の作業に比較して3ドルまで削減できる。
論文 参考訳(メタデータ) (2025-03-04T12:23:27Z) - Flex-PE: Flexible and SIMD Multi-Precision Processing Element for AI Workloads [0.0]
本研究は,フレキシブル・SIMDマルチ精度処理素子(FlexPE)を提案する。
提案設計では,パイプラインモードで最大16倍FxP4,8倍FxP8,4倍FxP16,1倍FxP32のスループットを実現する。
論文 参考訳(メタデータ) (2024-12-16T12:25:57Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。