論文の概要: RAMAN: Resource-efficient ApproxiMate Posit Processing for Algorithm-Hardware Co-desigN
- arxiv url: http://arxiv.org/abs/2510.22627v1
- Date: Sun, 26 Oct 2025 11:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.303532
- Title: RAMAN: Resource-efficient ApproxiMate Posit Processing for Algorithm-Hardware Co-desigN
- Title(参考訳): RAMAN: アルゴリズムハードウェアコディーグのための資源効率のよい近似ポジット処理
- Authors: Mohd Faisal Khan, Mukul Lokhande, Santosh Kumar Vishvakarma,
- Abstract要約: この研究は、リソース効率が高く近似的なposit(8,2)ベースのMultiply-Accumulate (MAC)アーキテクチャであるRAMANを提示する。
提案するREAP MACエンジンはRAMANのコアであり,ポジット乗算器の近似を用いて,大幅な面積と消費電力削減を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Edge-AI applications still face considerable challenges in enhancing computational efficiency in resource-constrained environments. This work presents RAMAN, a resource-efficient and approximate posit(8,2)-based Multiply-Accumulate (MAC) architecture designed to improve hardware efficiency within bandwidth limitations. The proposed REAP (Resource-Efficient Approximate Posit) MAC engine, which is at the core of RAMAN, uses approximation in the posit multiplier to achieve significant area and power reductions with an impact on accuracy. To support diverse AI workloads, this MAC unit is incorporated in a scalable Vector Execution Unit (VEU), which permits hardware reuse and parallelism among deep neural network layers. Furthermore, we propose an algorithm-hardware co-design framework incorporating approximation-aware training to evaluate the impact of hardware-level approximation on application-level performance. Empirical validation on FPGA and ASIC platforms shows that the proposed REAP MAC achieves up to 46% in LUT savings and 35.66% area, 31.28% power reduction, respectively, over the baseline Posit Dot-Product Unit (PDPU) design, while maintaining high accuracy (98.45%) for handwritten digit recognition. RAMAN demonstrates a promising trade-off between hardware efficiency and learning performance, making it suitable for next-generation edge intelligence.
- Abstract(参考訳): エッジAIアプリケーションは、リソース制約のある環境での計算効率を向上させる上で、依然として大きな課題に直面している。
この研究は、リソース効率が高く近似ポジット(8,2)ベースのMultiply-Accumulate (MAC)アーキテクチャであるRAMANを提示する。
RAMANのコアであるREAP (Resource-Efficient Approximate Posit) MACエンジンは、ポジット乗算器の近似を用いて、精度に影響を与えることなく、かなりの面積と消費電力削減を実現する。
多様なAIワークロードをサポートするために、このMACユニットはスケーラブルなベクトル実行ユニット(VEU)に組み込まれている。
さらに,ハードウェアレベルの近似がアプリケーションレベルの性能に与える影響を評価するために,近似学習を取り入れたアルゴリズムハードウェア協調設計フレームワークを提案する。
FPGAおよびASICプラットフォーム上での実証検証の結果、提案されたREAP MACは、手書き文字認識の高精度(98.45%)を維持しながら、それぞれベースラインのポジットドット生産ユニット(PDPU)設計よりも最大46%、35.66%、31.28%の電力削減を実現している。
RAMANはハードウェア効率と学習性能の間の有望なトレードオフを示し、次世代のエッジインテリジェンスに適している。
関連論文リスト
- QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Heterogeneous Integration of In-Memory Analog Computing Architectures
with Tensor Processing Units [0.0]
本稿では,IMACユニットとエッジTPUを統合してモバイルCNNの性能を向上させる,新しい,異種,混合信号,混合精度アーキテクチャを提案する。
本稿では,TPU-IMACアーキテクチャ上にモデルをデプロイする際の潜在的な精度低下を軽減するために,混合精度トレーニング手法を取り入れた統合学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T19:44:56Z) - PDPU: An Open-Source Posit Dot-Product Unit for Deep Learning
Applications [9.253002604030085]
Positは、ディープラーニングアプリケーションのためのIEEE-754浮動小数点フォーマットに代わる有望な代替品だ。
乗算器と加算木の組み合わせ、またはカスケード融合型乗算器の組み合わせによって実装され、計算効率が悪く、ハードウェアのオーバーヘッドが過大になる。
本稿では,資源効率と高スループットのドット生成ハードウェアの実装を容易にするオープンソースのポジットドット生成ユニットPDPUを提案する。
論文 参考訳(メタデータ) (2023-02-03T17:26:12Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z) - ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for
Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。
DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。
我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。
14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文 参考訳(メタデータ) (2020-03-25T07:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。