論文の概要: Real-Time Monocular Human Depth Estimation and Segmentation on Embedded
Systems
- arxiv url: http://arxiv.org/abs/2108.10506v1
- Date: Tue, 24 Aug 2021 03:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 20:17:17.657437
- Title: Real-Time Monocular Human Depth Estimation and Segmentation on Embedded
Systems
- Title(参考訳): 組込みシステムにおける実時間単眼人間深度推定とセグメント化
- Authors: Shan An, Fangru Zhou, Mei Yang, Haogang Zhu, Changhong Fu, and
Konstantinos A. Tsintotas
- Abstract要約: 移動中の歩行者に対する衝突回避を実現するためにシーンの深さを推定することは、ロボット分野における決定的かつ基本的な問題である。
本稿では,室内環境における人体深度推定とセグメンテーションを高速かつ高精度に行うための,新しい低複雑性ネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 13.490605853268837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating a scene's depth to achieve collision avoidance against moving
pedestrians is a crucial and fundamental problem in the robotic field. This
paper proposes a novel, low complexity network architecture for fast and
accurate human depth estimation and segmentation in indoor environments, aiming
to applications for resource-constrained platforms (including battery-powered
aerial, micro-aerial, and ground vehicles) with a monocular camera being the
primary perception module. Following the encoder-decoder structure, the
proposed framework consists of two branches, one for depth prediction and
another for semantic segmentation. Moreover, network structure optimization is
employed to improve its forward inference speed. Exhaustive experiments on
three self-generated datasets prove our pipeline's capability to execute in
real-time, achieving higher frame rates than contemporary state-of-the-art
frameworks (114.6 frames per second on an NVIDIA Jetson Nano GPU with TensorRT)
while maintaining comparable accuracy.
- Abstract(参考訳): 移動歩行者に対する衝突回避のためにシーンの深さを推定することはロボット分野において重要かつ根本的な問題である。
本稿では,室内環境における人体深度推定とセグメンテーションの迅速かつ高精度なネットワークアーキテクチャを提案し,単眼カメラを主認識モジュールとした資源制約型プラットフォーム(バッテリ駆動空中・マイクロ空・地上車両を含む)への適用を目指している。
エンコーダ・デコーダ構造に従って,提案手法は深さ予測と意味セグメンテーションの2つの分岐からなる。
さらに,ネットワーク構造最適化を用いて前方推定速度を改善する。
3つの自己生成データセットに対する試験的な実験は、パイプラインがリアルタイムに実行可能であることを証明し、同等の精度を維持しながら、現代の最先端フレームワーク(TensorRTを備えたNVIDIA Jetson Nano GPUで毎秒114.6フレーム)よりも高いフレームレートを達成する。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - METER: a mobile vision transformer architecture for monocular depth
estimation [0.0]
アート推定の状態を達成できる新しい軽量ビジョントランスフォーマアーキテクチャであるMETERを提案する。
本稿では,METERの3つの代替構成,画像詳細の画素推定と再構成のバランスをとる新たな損失関数,および最終的な予測を改善するための新たなデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2024-03-13T09:30:08Z) - Real-time Monocular Depth Estimation on Embedded Systems [32.40848141360501]
2つの効率的なRT-MonoDepthアーキテクチャとRT-MonoDepth-Sアーキテクチャを提案する。
RT-MonoDepthとRT-MonoDepth-SはNVIDIA Jetson Nanoで18.4&30.5 FPS、Jetson AGX Orinで253.0&364.1 FPSを達成した。
論文 参考訳(メタデータ) (2023-08-21T08:59:59Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge
TPU [58.720142291102135]
本稿では,ニューラルネットワークアーキテクチャを利用したポーズ推定ソフトウェアを提案する。
我々は、低消費電力の機械学習アクセラレーターが宇宙での人工知能の活用を可能にしていることを示す。
論文 参考訳(メタデータ) (2022-04-07T08:53:18Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Unsupervised Monocular Depth Learning with Integrated Intrinsics and
Spatio-Temporal Constraints [61.46323213702369]
本研究は,大規模深度マップとエゴモーションを予測可能な教師なし学習フレームワークを提案する。
本結果は,KITTI運転データセットの複数シーケンスにおける現在の最先端技術と比較して,高い性能を示す。
論文 参考訳(メタデータ) (2020-11-02T22:26:58Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。