論文の概要: ReS2tAC -- UAV-Borne Real-Time SGM Stereo Optimized for Embedded ARM and
CUDA Devices
- arxiv url: http://arxiv.org/abs/2106.07927v1
- Date: Tue, 15 Jun 2021 07:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 02:48:27.119740
- Title: ReS2tAC -- UAV-Borne Real-Time SGM Stereo Optimized for Embedded ARM and
CUDA Devices
- Title(参考訳): ReS2tAC -- 組み込みARMとCUDAデバイス向けに最適化されたUAVボーンリアルタイムSGMステレオ
- Authors: Boitumelo Ruf, Jonas Mohrs, Martin Weinmann, Stefan Hinz, J\"urgen
Beyerer
- Abstract要約: FPGAは長い間、高性能コンピューティングが可能な唯一の処理ハードウェアであった。
最近のGPUベースのシステムでは、グラフィックスハードウェア上で非常に並列な組み込みコンピューティングが可能になる。
ARMおよびDJI対応デバイス上でのリアルタイムな組み込みステレオ処理手法を提案する。
- 参考スコア(独自算出の注目度): 0.36748639131154304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the emergence of low-cost robotic systems, such as unmanned aerial
vehicle, the importance of embedded high-performance image processing has
increased. For a long time, FPGAs were the only processing hardware that were
capable of high-performance computing, while at the same time preserving a low
power consumption, essential for embedded systems. However, the recently
increasing availability of embedded GPU-based systems, such as the NVIDIA
Jetson series, comprised of an ARM CPU and a NVIDIA Tegra GPU, allows for
massively parallel embedded computing on graphics hardware. With this in mind,
we propose an approach for real-time embedded stereo processing on ARM and
CUDA-enabled devices, which is based on the popular and widely used Semi-Global
Matching algorithm. In this, we propose an optimization of the algorithm for
embedded CUDA GPUs, by using massively parallel computing, as well as using the
NEON intrinsics to optimize the algorithm for vectorized SIMD processing on
embedded ARM CPUs. We have evaluated our approach with different configurations
on two public stereo benchmark datasets to demonstrate that they can reach an
error rate as low as 3.3%. Furthermore, our experiments show that the fastest
configuration of our approach reaches up to 46 FPS on VGA image resolution.
Finally, in a use-case specific qualitative evaluation, we have evaluated the
power consumption of our approach and deployed it on the DJI Manifold 2-G
attached to a DJI Matrix 210v2 RTK unmanned aerial vehicle (UAV), demonstrating
its suitability for real-time stereo processing onboard a UAV.
- Abstract(参考訳): 無人航空機などの低コストなロボットシステムの出現に伴い、組み込み高性能画像処理の重要性が高まっている。
長い間、FPGAは高性能コンピューティングが可能な唯一の処理ハードウェアであり、同時に組み込みシステムに不可欠な低消費電力を保っていた。
しかし最近、ARM CPUとNVIDIA Tegra GPUで構成されたNVIDIA Jetsonシリーズのような組み込みGPUベースのシステムが利用可能になったことで、グラフィックスハードウェア上で非常に並列な組み込みコンピューティングが可能になる。
そこで本研究では,ARM と CUDA 対応デバイス上でリアルタイムなステレオ処理を実現する手法を提案する。
本稿では,超並列計算とneonインテラルを用いて,組込みarmcpu上でのベクトル化simd処理のためのアルゴリズムを最適化することにより,組込みcuda gpuのためのアルゴリズムの最適化を提案する。
2つのパブリックステレオベンチマークデータセットで異なる構成でこのアプローチを評価し、エラー率を3.3%まで低くできることを実証した。
さらに,本手法の高速構成はvga画像解像度で最大46fpsに達することを示した。
最後に,本手法の消費電力を評価し,dji行列210v2 rtk無人航空機(uav)に取り付けられたdji多様体2-gに配置し,実時間ステレオ処理に適した性能を示す。
関連論文リスト
- Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Benchmarking Edge Computing Devices for Grape Bunches and Trunks
Detection using Accelerated Object Detection Single Shot MultiBox Deep
Learning Models [2.1922186455344796]
この研究は、オブジェクト検出のための異なるプラットフォームのパフォーマンスをリアルタイムでベンチマークする。
著者らは、自然なVineデータセットを使用して、RetinaNet ResNet-50を微調整した。
論文 参考訳(メタデータ) (2022-11-21T17:02:33Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - iELAS: An ELAS-Based Energy-Efficient Accelerator for Real-Time Stereo
Matching on FPGA Platform [21.435663827158564]
FPGAプラットフォーム上でのリアルタイムELASステレオマッチングのためのエネルギー効率の高いアーキテクチャを提案する。
当社のFPGA実現は、38.4xと3.32xのフレームレート改善、27.1xと1.13xのエネルギー効率改善を実現します。
論文 参考訳(メタデータ) (2021-04-11T21:22:54Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。