論文の概要: MaRVIn: A Cross-Layer Mixed-Precision RISC-V Framework for DNN Inference, from ISA Extension to Hardware Acceleration
- arxiv url: http://arxiv.org/abs/2509.15187v1
- Date: Thu, 18 Sep 2025 17:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.368739
- Title: MaRVIn: A Cross-Layer Mixed-Precision RISC-V Framework for DNN Inference, from ISA Extension to Hardware Acceleration
- Title(参考訳): MARVIn: ISA拡張からハードウェアアクセラレーションまで、DNN推論のためのクロス層混合RISC-Vフレームワーク
- Authors: Giorgos Armeniakos, Alexis Maras, Sotirios Xydis, Dimitrios Soudris,
- Abstract要約: 既存の組み込みマイクロプロセッサは、混合精度NNを効率的に実行するための十分なアーキテクチャサポートを欠いている。
電力効率と性能を向上させる多層ハードウェア/ソフトウェア共同設計フレームワークであるMARVInを紹介する。
我々のフレームワークは、平均17.6倍のスピードアップを1%未満の精度で達成でき、ISA非依存のRISC-Vコアより優れ、最大1.8TOP/Wを実現している。
- 参考スコア(独自算出の注目度): 4.852153649271776
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The evolution of quantization and mixed-precision techniques has unlocked new possibilities for enhancing the speed and energy efficiency of NNs. Several recent studies indicate that adapting precision levels across different parameters can maintain accuracy comparable to full-precision models while significantly reducing computational demands. However, existing embedded microprocessors lack sufficient architectural support for efficiently executing mixed-precision NNs, both in terms of ISA extensions and hardware design, resulting in inefficiencies such as excessive data packing/unpacking and underutilized arithmetic units. In this work, we propose novel ISA extensions and a micro-architecture implementation specifically designed to optimize mixed-precision execution, enabling energy-efficient deep learning inference on RISC-V architectures. We introduce MaRVIn, a cross-layer hardware-software co-design framework that enhances power efficiency and performance through a combination of hardware improvements, mixed-precision quantization, ISA-level optimizations, and cycle-accurate emulation. At the hardware level, we enhance the ALU with configurable mixed-precision arithmetic (2, 4, 8 bits) for weights/activations and employ multi-pumping to reduce execution latency while implementing soft SIMD for efficient 2-bit ops. At the software level, we integrate a pruning-aware fine-tuning method to optimize model compression and a greedy-based DSE approach to efficiently search for Pareto-optimal mixed-quantized models. Additionally, we incorporate voltage scaling to boost the power efficiency of our system. Our experimental evaluation over widely used DNNs and datasets, such as CIFAR10 and ImageNet, demonstrates that our framework can achieve, on average, 17.6x speedup for less than 1% accuracy loss and outperforms the ISA-agnostic state-of-the-art RISC-V cores, delivering up to 1.8 TOPs/W.
- Abstract(参考訳): 量子化と混合精度の技術の進化により、NNの速度とエネルギー効率を向上する新たな可能性が生まれた。
いくつかの最近の研究は、異なるパラメータ間で精度レベルを適応させることで、計算要求を大幅に低減しつつ、完全精度モデルに匹敵する精度を維持することができることを示唆している。
しかし、既存の組み込みマイクロプロセッサは、ISA拡張とハードウェア設計の両方において、混合精度NNを効率的に実行するための十分なアーキテクチャ上のサポートを欠いているため、過剰なデータパッキング/アンパックや未使用の算術ユニットのような非効率な結果となった。
本研究では, RISC-Vアーキテクチャ上でのエネルギー効率の高い深層学習推定を実現するために, 混合精度の実行を最適化する新しいISA拡張とマイクロアーキテクチャの実装を提案する。
ハードウェアの改良, 混合精度量子化, ISAレベルの最適化, サイクル精度のエミュレーションを組み合わせることで, 電力効率と性能を向上させる多層ハードウェア・ソフトウェア共同設計フレームワークであるMARVInを紹介する。
ハードウェアレベルでは、重み/アクティベーションのための構成可能な混合精度算術(2, 4, 8ビット)でALUを強化し、マルチポンピングを用いて、効率的な2ビット運用のためのソフトSIMDを実装しながら実行遅延を低減する。
ソフトウェアレベルでは、モデル圧縮を最適化するプルーニング対応ファインチューニング法と、パレート最適混合量子化モデルを効率的に探索するgreedy-based DSEアプローチを統合する。
さらに、電圧スケーリングを導入し、システムの電力効率を向上する。
CIFAR10やImageNetのような広く使われているDNNやデータセットに対する実験的な評価は、平均17.6倍のスピードアップを1%未満の精度で達成し、ISA非依存のRISC-Vコアよりも優れ、最大1.8TOP/Wを実現していることを示している。
関連論文リスト
- POLARON: Precision-aware On-device Learning and Adaptive Runtime-cONfigurable AI acceleration [0.0]
本研究は,効率的な乗算累積演算を行うSIMD対応マルチ精度MACエンジンを提案する。
このアーキテクチャは、計算精度をワークロードの感度に合わせるための層適応的精度戦略を取り入れている。
その結果,PDPは最大で2倍,資源使用量は3倍に改善した。
論文 参考訳(メタデータ) (2025-06-10T13:33:02Z) - MicroScopiQ: Accelerating Foundational Models through Outlier-Aware Microscaling Quantization [6.456189487006878]
基本モデル(FM)の量子化は、外れ値と呼ばれる大きめの値の出現によって困難である。
既存のoutlier-awareアルゴリズムアーキテクチャの共同設計技術は、混合精度を使用し、outlierを高い精度で保持するが、ハードウェア効率を損なうか、同じ精度でinlierとoutlierを定量化する。
我々は、プルーニングを利用して外れ値認識量子化を補完する新しい共同設計手法MicroScopiQを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:25:45Z) - Mixed-precision Neural Networks on RISC-V Cores: ISA extensions for Multi-Pumped Soft SIMD Operations [5.847997723738113]
現代の組み込みマイクロプロセッサは、混合精度NNを非常に限定的にサポートしている。
本稿では,協調ハードウェア設計,混合精度量子化,ISA拡張,推論を可能にするハードウェア・ソフトウェア共同設計フレームワークを提案する。
我々のフレームワークは、平均15倍のエネルギー削減を1%未満の精度で達成でき、ISA非依存のRISC-Vコアよりも優れています。
論文 参考訳(メタデータ) (2024-07-19T12:54:04Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。