論文の概要: A Heterogeneous RISC-V based SoC for Secure Nano-UAV Navigation
- arxiv url: http://arxiv.org/abs/2401.03531v1
- Date: Sun, 7 Jan 2024 16:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:27:51.689505
- Title: A Heterogeneous RISC-V based SoC for Secure Nano-UAV Navigation
- Title(参考訳): 安全ナノUAVナビゲーションのための異種RISC-VベースのSoC
- Authors: Luca Valente, Alessandro Nadalini, Asif Veeran, Mattia Sinigaglia,
Bruno Sa, Nils Wistoff, Yvan Tortorella, Simone Benatti, Rafail Psiakis, Ari
Kulmala, Baker Mohammad, Sandro Pinto, Daniele Palossi, Luca Benini, Davide
Rossi
- Abstract要約: ナノUAVは高度な計算能力を必要とする一方で、大きな電力とペイロードの制約に直面している。
9mm2200mWシステム・オン・ア・チップ(SoC)のShaheenについて紹介する。
Linux対応のRV64コアと、v1.0の承認されたハイパーバイザ拡張と、低コストで低消費電力のメモリコントローラを統合している。
同時に、汎用DSP向けに最適化されたRV32コアの完全プログラム可能なエネルギー効率と面積効率のマルチコアクラスタを統合している。
- 参考スコア(独自算出の注目度): 40.8381466360025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of energy-efficient parallel ultra-low-power (ULP)
ucontrollers units (MCUs) is enabling the development of autonomous nano-sized
unmanned aerial vehicles (nano-UAVs). These sub-10cm drones represent the next
generation of unobtrusive robotic helpers and ubiquitous smart sensors.
However, nano-UAVs face significant power and payload constraints while
requiring advanced computing capabilities akin to standard drones, including
real-time Machine Learning (ML) performance and the safe co-existence of
general-purpose and real-time OSs. Although some advanced parallel ULP MCUs
offer the necessary ML computing capabilities within the prescribed power
limits, they rely on small main memories (<1MB) and ucontroller-class CPUs with
no virtualization or security features, and hence only support simple
bare-metal runtimes. In this work, we present Shaheen, a 9mm2 200mW SoC
implemented in 22nm FDX technology. Differently from state-of-the-art MCUs,
Shaheen integrates a Linux-capable RV64 core, compliant with the v1.0 ratified
Hypervisor extension and equipped with timing channel protection, along with a
low-cost and low-power memory controller exposing up to 512MB of off-chip
low-cost low-power HyperRAM directly to the CPU. At the same time, it
integrates a fully programmable energy- and area-efficient multi-core cluster
of RV32 cores optimized for general-purpose DSP as well as reduced- and
mixed-precision ML. To the best of the authors' knowledge, it is the first
silicon prototype of a ULP SoC coupling the RV64 and RV32 cores in a
heterogeneous host+accelerator architecture fully based on the RISC-V ISA. We
demonstrate the capabilities of the proposed SoC on a wide range of benchmarks
relevant to nano-UAV applications. The cluster can deliver up to 90GOp/s and up
to 1.8TOp/s/W on 2-bit integer kernels and up to 7.9GFLOp/s and up to
150GFLOp/s/W on 16-bit FP kernels.
- Abstract(参考訳): エネルギー効率のよい並列超低出力(ULP)制御ユニット(MCU)の急速な進歩は、自律型ナノサイズの無人航空機(ナノUAV)の開発を可能にしている。
これらの10cm以下のドローンは、次世代のロボットヘルパーとユビキタススマートセンサーを表している。
しかし、ナノUAVは、リアルタイム機械学習(ML)パフォーマンスや汎用OSとリアルタイムOSの安全な共存など、標準的なドローンに似た高度なコンピューティング機能を必要とする一方で、大きな電力とペイロードの制約に直面している。
一部の高度な並列ULP MCUは、所定の電力制限内で必要なMLコンピューティング機能を提供するが、仮想化やセキュリティ機能を持たない小さなメインメモリ(1MB)とユコントローラクラスのCPUに依存しているため、単純なベアメタルランタイムしかサポートしていない。
本研究では,22nmFDXで実装した9mm2 200mW SoCのShaheenを紹介する。
最先端のMCUと異なり、ShaheenはLinux対応のRV64コアを統合し、v1.0の承認されたハイパーバイザ拡張に準拠し、CPUに直接512MBのオフチップ低消費電力のHyperRAMを出力する低コストで低消費電力のメモリコントローラを備えた。
同時に、汎用DSP向けに最適化されたRV32コアの完全プログラム可能なエネルギー効率と面積効率のマルチコアクラスタと、縮小および混合精度MLを統合している。
著者の知る限り、RISC-V ISAをベースとしたヘテロジニアスホスト+アクセラレータアーキテクチャにおいて、RV64とRV32コアを結合するULP SoCの最初のシリコンプロトタイプである。
提案するSoCのナノUAV応用に関する幅広いベンチマークにおける性能を実証する。
クラスタは最大90GOp/s、2ビット整数カーネルで最大1.8TOp/s/W、最大7.9GFLOp/s、16ビットFPカーネルで最大150GFLOp/s/Wを提供する。
関連論文リスト
- Co-design of a novel CMOS highly parallel, low-power, multi-chip neural network accelerator [0.0]
我々は,並列処理(>10X)を大幅に高速化し,消費電力を大幅に削減する新しい低消費電力ASICAIプロセッサであるNV-1を提案する。
結果のデバイスは、現在、フィールド化されたエッジセンサーアプリケーションで使用されている。
論文 参考訳(メタデータ) (2024-09-28T15:47:16Z) - Deeploy: Enabling Energy-Efficient Deployment of Small Language Models On Heterogeneous Microcontrollers [11.365735615086292]
Deeployは新しいDeep Neural Network(DNN)コンパイラで、最小限のランタイムサポートを必要とする高度に最適化されたCコードを生成する。
Deeploy は RV32 コアの命令拡張と NPU をフル活用して,SLM の実行のためのエンドツーエンドコードを生成する。
我々は,TinyStoriesデータセットでトレーニングしたSLMに対して,毎秒SI340TokenでSI490マイクロジュールの最先端エネルギーとスループットを実現する。
論文 参考訳(メタデータ) (2024-08-08T12:40:27Z) - Training on the Fly: On-device Self-supervised Learning aboard Nano-drones within 20 mW [52.280742520586756]
ナノドローンのような小さな機械学習(TinyML)を利用した小型サイバー物理システム(CPS)は、ますます魅力的な技術になりつつある。
単純な電子回路はこれらのCPSを安価にすることができるが、計算、メモリ、センサーの資源を著しく制限する。
本稿では,ナノドロンの限られた超低消費電力資源にのみ依存する,オンデバイスファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-06T13:11:36Z) - Optimizing the Deployment of Tiny Transformers on Low-Power MCUs [12.905978154498499]
この作業は、商用MCU上でのエンコーダTiny Transformersの柔軟性とマルチプラットフォームデプロイメントの実現と最適化を目的としている。
我々のフレームワークは、データの再利用を最大化し、重要な注意ブロックにデータマーシャリング操作を避けるために、カーネルの最適化ライブラリを提供する。
MHSA深度優先のタイリング方式はメモリピークを最大6.19倍に減らし、融合重み付けはランタイムを1.53倍減らし、パラメータ数を25%減らすことを示した。
論文 参考訳(メタデータ) (2024-04-03T14:14:08Z) - High-throughput Visual Nano-drone to Nano-drone Relative Localization using Onboard Fully Convolutional Networks [51.23613834703353]
相対的なドローンとドローンのローカライゼーションは、どんなSwarm操作でも基本的なビルディングブロックである。
我々は、新しいビジョンベース完全畳み込みニューラルネットワーク(FCNN)に基づく垂直統合システムを提案する。
その結果,水平画像座標で32~47%,垂直画像座標で18~55%,実世界の30k画像のデータセットでR2乗改善が得られた。
論文 参考訳(メタデータ) (2024-02-21T12:34:31Z) - MCUFormer: Deploying Vision Transformers on Microcontrollers with
Limited Memory [76.02294791513552]
我々はMCUFormerと呼ばれるハードウェア・アルゴリズムの協調最適化手法を提案し、メモリが極端に制限されたマイクロコントローラにビジョントランスフォーマーを配置する。
MCUFormerは320KBのメモリを持つ画像分類のためのImageNet上で73.62%のTop-1精度を実現している。
論文 参考訳(メタデータ) (2023-10-25T18:00:26Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Vega: A 10-Core SoC for IoT End-Nodes with DNN Acceleration and
Cognitive Wake-Up From MRAM-Based State-Retentive Sleep Mode [14.214500730272256]
Vegaは1.7ドルのMathrmmuWから32.2 GOPS (@ 49.4 mW)ピークまで、NSAA上でスケールアップ可能なIoTエンドノードシステムである。
ベガは8ビットINTで615 GOPS/W、32ビットと16ビットFPで79と129 GFLOPS/WのSoAリード効率を達成する。
論文 参考訳(メタデータ) (2021-10-18T08:47:45Z) - DORY: Automatic End-to-End Deployment of Real-World DNNs on Low-Cost IoT
MCUs [6.403349961091506]
低コストのMCUベースのエンドノードはオンチップメモリが限られており、キャッシュをスクラッチパッドで置き換えることが多い。
DORYは、通常1MB以下のオンチップメモリを持つ低価格のMCUにデプロイする自動ツールである。
論文 参考訳(メタデータ) (2020-08-17T07:30:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。