論文の概要: POLARON: Precision-aware On-device Learning and Adaptive Runtime-cONfigurable AI acceleration
- arxiv url: http://arxiv.org/abs/2506.08785v1
- Date: Tue, 10 Jun 2025 13:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.556083
- Title: POLARON: Precision-aware On-device Learning and Adaptive Runtime-cONfigurable AI acceleration
- Title(参考訳): POLARON: デバイス上での精密学習と適応型ランタイム対応AIアクセラレーション
- Authors: Mukul Lokhande, Santosh Kumar Vishvakarma,
- Abstract要約: 本研究は,効率的な乗算累積演算を行うSIMD対応マルチ精度MACエンジンを提案する。
このアーキテクチャは、計算精度をワークロードの感度に合わせるための層適応的精度戦略を取り入れている。
その結果,PDPは最大で2倍,資源使用量は3倍に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing complexity of AI models requires flexible hardware capable of supporting diverse precision formats, particularly for energy-constrained edge platforms. This work presents PARV-CE, a SIMD-enabled, multi-precision MAC engine that performs efficient multiply-accumulate operations using a unified data-path for 4/8/16-bit fixed-point, floating point, and posit formats. The architecture incorporates a layer adaptive precision strategy to align computational accuracy with workload sensitivity, optimizing both performance and energy usage. PARV-CE integrates quantization-aware execution with a reconfigurable SIMD pipeline, enabling high-throughput processing with minimal overhead through hardware-software co-design. The results demonstrate up to 2x improvement in PDP and 3x reduction in resource usage compared to SoTA designs, while retaining accuracy within 1.8% FP32 baseline. The architecture supports both on-device training and inference across a range of workloads, including DNNs, RNNs, RL, and Transformer models. The empirical analysis establish PARVCE incorporated POLARON as a scalable and energy-efficient solution for precision-adaptive AI acceleration at edge.
- Abstract(参考訳): AIモデルの複雑さの増大は、特にエネルギー制約のあるエッジプラットフォームにおいて、さまざまな精度フォーマットをサポートするフレキシブルハードウェアを必要とする。
本研究では,4/8/16ビットの固定点,浮動小数点,ポジットフォーマットの統一データパスを用いて,効率的な乗算演算を行うSIMD対応多精度MACエンジンPARV-CEを提案する。
このアーキテクチャには、計算精度をワークロードの感度に合わせるための層適応的精度戦略が組み込まれており、性能とエネルギー使用量の両方を最適化している。
PARV-CEは、量子化対応の実行を再構成可能なSIMDパイプラインに統合し、ハードウェアとソフトウェアの共同設計によるオーバーヘッドを最小限に抑えたハイスループット処理を可能にする。
その結果、PDPが最大2倍改善され、SoTAの設計に比べてリソース使用量が3倍削減され、精度は1.8% FP32ベースラインで維持された。
このアーキテクチャは、DNN、RNN、RL、Transformerモデルなど、さまざまなワークロードにわたるデバイス上のトレーニングと推論の両方をサポートする。
実験的な分析により、PARVCEは、エッジでの精度適応型AIアクセラレーションのためのスケーラブルでエネルギー効率のよいソリューションとして、POLARONを組み込んだ。
関連論文リスト
- Transformer^-1: Input-Adaptive Computation for Resource-Constrained Deployment [3.6219999155937113]
本稿では,動的シナリオ下でのディープラーニングモデルにおける固定計算パラダイムによる資源無駄に対処するためのTransformer$-1$アーキテクチャを提案する。
ベンチマークテストでは,標準的なTransformerと比較してFLOPを42.7%削減し,ピークメモリ使用率を3%削減した。
また,いくつかの自然言語処理タスクの実験を行い,資源効率の大幅な向上を実現した。
論文 参考訳(メタデータ) (2025-01-26T15:31:45Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Algorithm-Hardware Co-Design of Distribution-Aware Logarithmic-Posit Encodings for Efficient DNN Inference [4.093167352780157]
本稿では,ポジトリにインスパイアされた適応型ハードウェアフレンドリなデータ型であるLogarithmic Posits (LP)を紹介する。
また,LPQ(LP Quantization, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化)
論文 参考訳(メタデータ) (2024-03-08T17:28:49Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。