論文の概要: Performance/power assessment of CNN packages on embedded automotive
platforms
- arxiv url: http://arxiv.org/abs/2310.08401v1
- Date: Thu, 12 Oct 2023 15:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 10:51:00.323677
- Title: Performance/power assessment of CNN packages on embedded automotive
platforms
- Title(参考訳): 組込み自動車プラットフォームにおけるCNNパッケージの性能・パワー評価
- Authors: Paolo Burgio and Gianluca Brilli
- Abstract要約: 組込み商用オンチップによる最先端プラットフォーム上での最新のネットワークの有効性と効率性を検証することを目的としている。
我々の研究は、設計に最適なCNNパッケージとコンピューティングシステムを選択するエンジニアを支援することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rise of power-efficient embedded computers based on highly-parallel
accelerators opens a number of opportunities and challenges for researchers and
engineers, and paved the way to the era of edge computing. At the same time,
advances in embedded AI for object detection and categorization such as YOLO,
GoogleNet and AlexNet reached an unprecedented level of accuracy (mean-Average
Precision - mAP) and performance (Frames-Per-Second - FPS). Today, edge
computers based on heterogeneous many-core systems are a predominant choice to
deploy such systems in industry 4.0, wearable devices, and - our focus -
autonomous driving systems. In these latter systems, engineers struggle to make
reduced automotive power and size budgets co-exist with the accuracy and
performance targets requested by autonomous driving. We aim at validating the
effectiveness and efficiency of most recent networks on state-of-the-art
platforms with embedded commercial-off-the-shelf System-on-Chips, such as
Xavier AGX, Tegra X2 and Nano for NVIDIA and XCZU9EG and XCZU3EG of the Zynq
UltraScale+ family, for the Xilinx counterpart. Our work aims at supporting
engineers in choosing the most appropriate CNN package and computing system for
their designs, and deriving guidelines for adequately sizing their systems.
- Abstract(参考訳): 高並列加速器に基づく高効率組み込みコンピュータの台頭は、研究者やエンジニアにとって多くの機会と課題を開き、エッジコンピューティングの時代への道を開いた。
同時に、YOLO、GoogleNet、AlexNetといったオブジェクト検出と分類のための組み込みAIの進歩は、前代未聞の精度(平均精度 - mAP)とパフォーマンス(フレーム/秒単位 - FPS)に達した。
今日では、異種多コアシステムに基づくエッジコンピュータが、業界4.0、ウェアラブルデバイス、およびフォーカス自律駆動システムにおいて、これらのシステムをデプロイする主な選択肢となっている。
後者のシステムでは、エンジニアは、自動運転によって要求される精度と性能の目標と共存して、自動車の電力とサイズの予算の削減に苦労している。
我々は,Xilinx対応のXavier AGX,Tegra X2,Nano for NVIDIA,Zynq UltraScale+ファミリーのXCZU9EG,Xilinx対応のXCZU3EGなど,市販のシステムオンチップを組み込んだ最先端プラットフォーム上での最新のネットワークの有効性と有効性を検証することを目的とする。
本研究は,設計に最も適したcnnパッケージおよびコンピューティングシステムを選択する技術者の支援と,システムの適切なサイズ化のためのガイドラインの導出を目的とする。
関連論文リスト
- Latency optimized Deep Neural Networks (DNNs): An Artificial Intelligence approach at the Edge using Multiprocessor System on Chip (MPSoC) [1.949471382288103]
モバイルデバイスにおけるエッジコンピューティング(Edge at Edge)は、この要件に対処するための最適化されたアプローチのひとつだ。
本研究では,低レイテンシ・電力最適化型スマートモバイルシステムの実現の可能性と課題について考察する。
組込みFPGAエッジデバイス上でのニューラルネットワーク(NN)の性能と実装可能性について論じる。
論文 参考訳(メタデータ) (2024-07-16T11:51:41Z) - Machine Learning aided Computer Architecture Design for CNN Inferencing
Systems [0.0]
我々は,それぞれ5.03%,5.94%のMAPEを用いて,推論中のCNNのパワーと性能を予測する手法を開発した。
我々のアプローチは、コンピュータアーキテクトが開発初期段階のパワーと性能を見積もることを可能にし、多くのプロトタイプの必要性を減らします。
論文 参考訳(メタデータ) (2023-08-10T06:17:46Z) - Mitigating Memory Wall Effects in CNN Engines with On-the-Fly Weights
Generation [13.681095158525514]
unzipFPGAは、既存のCNNエンジンの制限に対応する新しいCNN推論システムである。
そこで本研究では,オンザフライでの重み生成を可能にする重み生成モジュールを提案する。
さらに,対象のCNNデバイス対に重み生成機構を調整したハードウェア・アウェア自動手法により,unzipFPGAをさらに強化する。
論文 参考訳(メタデータ) (2023-07-25T11:19:21Z) - Fast GraspNeXt: A Fast Self-Attention Neural Network Architecture for
Multi-task Learning in Computer Vision Tasks for Robotic Grasping on the Edge [80.88063189896718]
アーキテクチャと計算の複雑さが高いと、組み込みデバイスへのデプロイに適さない。
Fast GraspNeXtは、ロボットグルーピングのためのコンピュータビジョンタスクに埋め込まれたマルチタスク学習に適した、高速な自己認識型ニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2023-04-21T18:07:14Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Learning Connectivity-Maximizing Network Configurations [123.01665966032014]
本稿では、専門家からコミュニケーションエージェントを配置することを学ぶ畳み込みニューラルネットワーク(CNN)を用いた教師あり学習手法を提案する。
我々は,標準ライントポロジやリングトポロジ,ランダムに生成された105万件のテストケース,トレーニング中に見えない大規模なチームについて,CNNのパフォーマンスを実証した。
トレーニング後,本システムは10~20名のエージェントの最適化手法よりも2桁高速な接続構成を生成する。
論文 参考訳(メタデータ) (2021-12-14T18:59:01Z) - How to Reach Real-Time AI on Consumer Devices? Solutions for
Programmable and Custom Architectures [7.085772863979686]
ディープニューラルネットワーク(DNN)は、オブジェクトや音声認識など、さまざまな人工知能(AI)推論タスクにおいて大きな進歩をもたらした。
このようなAIモデルをコモディティデバイスにデプロイすることは、大きな課題に直面している。
クロススタック手法によりリアルタイムな性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T11:23:12Z) - Tackling Variabilities in Autonomous Driving [15.374442918002813]
可変性のある自動運転タスクのためのハードウェア基板を提供するために、新しい異種マルチコアAIアクセラレータ(HMAI)を提案します。
また,タスクマッピング問題を解決するために,深層強化学習(RL)に基づくタスクスケジューリング機構FlexAIを提案する。
論文 参考訳(メタデータ) (2021-04-21T08:51:40Z) - Machine Learning-Based Automated Design Space Exploration for Autonomous
Aerial Robots [55.056709056795206]
自律飛行ロボットのためのドメイン固有のアーキテクチャの構築は、オンボードコンピューティングを設計するための体系的な方法論が欠如しているため、難しい。
F-1ルーフラインと呼ばれる新しいパフォーマンスモデルを導入し、アーキテクトがバランスの取れたコンピューティングシステムを構築する方法を理解するのを助ける。
サイバー物理設計空間を自動でナビゲートするために、AutoPilotを導入します。
論文 参考訳(メタデータ) (2021-02-05T03:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。