論文の概要: Real-time semantic segmentation on FPGAs for autonomous vehicles with
hls4ml
- arxiv url: http://arxiv.org/abs/2205.07690v1
- Date: Mon, 16 May 2022 13:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 14:01:21.995243
- Title: Real-time semantic segmentation on FPGAs for autonomous vehicles with
hls4ml
- Title(参考訳): hls4mlを用いた自動運転車用fpgaのリアルタイムセマンティクスセグメンテーション
- Authors: Nicol\`o Ghielmetti, Vladimir Loncar, Maurizio Pierini, Marcel Roed,
Sioni Summers, Thea Aarrestad, Christoffer Petersson, Hampus Linander,
Jennifer Ngadiuba, Kelvin Lin, Philip Harris
- Abstract要約: フィールドプログラマブルゲートアレイは、自律運転に関連するリアルタイムセマンティックセグメンテーションタスクのハードウェアアクセラレータとして機能することを示す。
ENet畳み込みニューラルネットワークアーキテクチャの圧縮バージョンを考慮すると、1イメージあたり4.9ミリ秒のレイテンシで完全にオンチップのデプロイメントを実演する。
本稿では,アグレッシブフィルタの削減と異種量子化学習,畳み込み層の実装により,電力消費と資源利用を大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 6.223322030008291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate how field programmable gate arrays can serve as
hardware accelerators for real-time semantic segmentation tasks relevant for
autonomous driving. Considering compressed versions of the ENet convolutional
neural network architecture, we demonstrate a fully-on-chip deployment with a
latency of 4.9 ms per image, using less than 30% of the available resources on
a Xilinx ZCU102 evaluation board. The latency is reduced to 3 ms per image when
increasing the batch size to ten, corresponding to the use case where the
autonomous vehicle receives inputs from multiple cameras simultaneously. We
show, through aggressive filter reduction and heterogeneous quantization-aware
training, and an optimized implementation of convolutional layers, that the
power consumption and resource utilization can be significantly reduced while
maintaining accuracy on the Cityscapes dataset.
- Abstract(参考訳): 本稿では,フィールドプログラム可能なゲートアレイが,自律運転に関連するリアルタイムセマンティックセグメンテーションタスクのハードウェアアクセラレータとして機能するかを検討する。
ENet畳み込みニューラルネットワークアーキテクチャの圧縮バージョンを考慮すると、Xilinx ZCU102評価ボード上で利用可能なリソースの30%未満を使用して、画像毎の4.9ミリ秒の完全なオンチップデプロイメントを実演する。
車両が複数のカメラから同時に入力を受けるユースケースに対応して、バッチサイズを10に増やすと、画像あたりのレイテンシを3msに短縮する。
本研究では,アグレッシブフィルタの削減と異種量子化学習,畳み込み層の実装により,Cityscapesデータセットの精度を維持しつつ,消費電力と資源利用を著しく低減できることを示す。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Unlocking Real-Time Fluorescence Lifetime Imaging: Multi-Pixel Parallelism for FPGA-Accelerated Processing [2.369919866595525]
FPGAベースのハードウェアアクセラレーターを用いてリアルタイムFLIを実現する手法を提案する。
我々は、時間分解カメラと互換性のあるFPGAボード上に、GRUベースのシーケンス・ツー・シーケンス(Seq2Seq)モデルを実装した。
GRUベースのSeq2Seqモデルと、Seq2SeqLiteと呼ばれる圧縮されたバージョンを統合することで、複数のピクセルを並列に処理することができ、シーケンシャル処理と比較して遅延を低減できた。
論文 参考訳(メタデータ) (2024-10-09T18:24:23Z) - Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - LAPTNet-FPN: Multi-scale LiDAR-aided Projective Transform Network for
Real Time Semantic Grid Prediction [0.0]
複数のセンサからの情報を融合することにより、ロバスト性を高め、タスクの計算負荷を低減できる。
当社のマルチスケールLiDAR支援型パースペクティブトランスフォーメーションネットワークは、ポイントクラウドで利用可能な情報を用いて、画像特徴の投影をトップビュー表現に導く。
論文 参考訳(メタデータ) (2023-02-10T12:34:28Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - High-speed object detection with a single-photon time-of-flight image
sensor [2.648554238948439]
我々は,64×32の空間解像度で16ビンの光子タイミングヒストグラムを出力する携帯型SPADカメラシステムの結果を報告する。
結果は、人間の反応時間よりも早く恩恵を受けるであろう安全クリティカルなコンピュータビジョンアプリケーションに関係している。
論文 参考訳(メタデータ) (2021-07-28T14:53:44Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Fast convolutional neural networks on FPGAs with hls4ml [0.22756183402372013]
FPGAに超低遅延低電力ディープニューラルネットワークをデプロイするための自動化ツールを紹介します。
最新のモデルパフォーマンスを維持しながら、畳み込みアーキテクチャを使用して5,mu$sの推論レイテンシを実現する方法をデモします。
論文 参考訳(メタデータ) (2021-01-13T14:47:11Z) - Binary DAD-Net: Binarized Driveable Area Detection Network for
Autonomous Driving [94.40107679615618]
本稿では,二項化駆動型領域検出ネットワーク(バイナリDAD-Net)を提案する。
エンコーダ、ボトルネック、デコーダ部分の2重みとアクティベーションのみを使用する。
パブリックデータセット上で、最先端のセマンティックセグメンテーションネットワークより優れています。
論文 参考訳(メタデータ) (2020-06-15T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。