論文の概要: RISC-V Based TinyML Accelerator for Depthwise Separable Convolutions in Edge AI
- arxiv url: http://arxiv.org/abs/2511.21232v1
- Date: Wed, 26 Nov 2025 10:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.052368
- Title: RISC-V Based TinyML Accelerator for Depthwise Separable Convolutions in Edge AI
- Title(参考訳): RISC-VベースのTinyMLアクセラレータによるエッジAIの奥行き分離可能な畳み込み
- Authors: Muhammed Yildirim, Ozcan Ozturk,
- Abstract要約: 本稿では,融合画素データフローを利用したハードウェアアクセラレーションアーキテクチャを提案する。
単一の出力ピクセルを計算し、すべてのステージ展開、奥行きの畳み込み、プロジェクションバイ・ストリーミングデータにわたって完了させる。
RISC-Vコア上でのベースラインソフトウェア実行で最大59.3倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 1.1816942730023885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing demand for on-device intelligence in Edge AI and TinyML applications requires the efficient execution of modern Convolutional Neural Networks (CNNs). While lightweight architectures like MobileNetV2 employ Depthwise Separable Convolutions (DSC) to reduce computational complexity, their multi-stage design introduces a critical performance bottleneck inherent to layer-by-layer execution: the high energy and latency cost of transferring intermediate feature maps to either large on-chip buffers or off-chip DRAM. To address this memory wall, this paper introduces a novel hardware accelerator architecture that utilizes a fused pixel-wise dataflow. Implemented as a Custom Function Unit (CFU) for a RISC-V processor, our architecture eliminates the need for intermediate buffers entirely, reducing the data movement up to 87\% compared to conventional layer-by-layer execution. It computes a single output pixel to completion across all DSC stages-expansion, depthwise convolution, and projection-by streaming data through a tightly-coupled pipeline without writing to memory. Evaluated on a Xilinx Artix-7 FPGA, our design achieves a speedup of up to 59.3x over the baseline software execution on the RISC-V core. Furthermore, ASIC synthesis projects a compact 0.284 mm$^2$ footprint with 910 mW power at 2 GHz in 28 nm, and a 1.20 mm$^2$ footprint with 233 mW power at 300 MHz in 40 nm. This work confirms the feasibility of a zero-buffer dataflow within a TinyML resource envelope, offering a novel and effective strategy for overcoming the memory wall in edge AI accelerators.
- Abstract(参考訳): Edge AIとTinyMLアプリケーションにおけるデバイス上のインテリジェンスに対する需要の増加は、現代的な畳み込みニューラルネットワーク(CNN)の効率的な実行を必要としている。
MobileNetV2のような軽量アーキテクチャでは、計算複雑性を低減するためにDepthwise Separable Convolutions (DSC)を採用しているが、多段階の設計では、層ごとの実行に固有の重要なパフォーマンスボトルネックが発生している。
このメモリウォールに対処するために,融合画素データフローを利用したハードウェアアクセラレーションアーキテクチャを提案する。
RISC-Vプロセッサのカスタム関数ユニット(CFU)として実装されたアーキテクチャでは、中間バッファが完全に不要になり、従来の層間実行と比較して最大87倍までデータ移動が減少する。
単一の出力ピクセルを計算し、メモリに書き込むことなく、全DSCステージ展開、奥行きの畳み込み、および厳密に結合されたパイプラインを通してのプロジェクション・バイ・ストリーミングデータを完了させる。
Xilinx Artix-7 FPGAを用いて評価し,RISC-Vコア上でのベースラインソフトウェア実行を59.3倍高速化する。
さらにASIC合成では、28nmで2GHzで910 mWの小型の0.284 mm$^2$フットプリントと、40nmで300MHzで233 mWの1.20 mm$^2$フットプリントが計画されている。
この研究は、TinyMLリソースエンベロープ内のゼロバッファデータフローの実現性を確認し、エッジAIアクセラレーターのメモリ壁を克服するための、新しく効果的な戦略を提供する。
関連論文リスト
- Low Power Vision Transformer Accelerator with Hardware-Aware Pruning and Optimized Dataflow [0.0]
本稿では,アルゴリズムハードウェアの共設計により最適化された低消費電力ビジョントランスフォーマーアクセラレータを提案する。
複雑な機構を導入することなく、ハードウェアフレンドリーな動的トークンプルーニングによってモデルの複雑さを低減させる。
ピークスループットは1GHzで1024 GOPS、エネルギー効率は2.31 TOPS/W、面積効率は858.61 GOPS/mm2である。
論文 参考訳(メタデータ) (2025-10-16T07:44:42Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition
on The Edge [0.6254873489691849]
本稿では,8ビット量子化された2ストリームSimpleNet-PyTorch CNNアーキテクチャに基づく,エンドツーエンドHAR拡張型HW/SWアクセラレータの共設計を提案する。
私たちの開発では、部分的にストリーミングデータフローアーキテクチャを使用して、ネットワーク設計やリソース利用のトレードオフよりも高いスループットを実現しています。
提案手法は,ZCU104上の187MHzで約24FPSのリアルタイム推論スループットを用いて,約81%の予測精度を達成した。
論文 参考訳(メタデータ) (2023-11-04T10:38:21Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on
Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。
エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文 参考訳(メタデータ) (2023-06-10T17:25:58Z) - PSCNN: A 885.86 TOPS/W Programmable SRAM-based Computing-In-Memory
Processor for Keyword Spotting [0.10547353841674209]
本稿では,複数のより小さなCIMマクロではなく,1つの大きなCIMマクロを持つプログラマブルCIMプロセッサを提案する。
提案アーキテクチャでは,解凍あるいは独立な畳み込み/プーリング操作をサポートするために,プール書き込み方式を採用し,35.9%のレイテンシ削減を実現している。
TSMC 28nm技術で作製された設計は、150.8 GOPSスループットと885.86 TOPS/W電力効率を10MHzで達成する。
論文 参考訳(メタデータ) (2022-05-02T09:58:18Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT
MCUs [6.403349961091506]
低コストのMCUベースのエンドノードはオンチップメモリが限られており、キャッシュをスクラッチパッドで置き換えることが多い。
DORYは、通常1MB以下のオンチップメモリを持つ低価格のMCUにデプロイする自動ツールである。
論文 参考訳(メタデータ) (2020-08-17T07:30:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。