論文の概要: RealNet: Combining Optimized Object Detection with Information Fusion
Depth Estimation Co-Design Method on IoT
- arxiv url: http://arxiv.org/abs/2204.11216v1
- Date: Sun, 24 Apr 2022 08:35:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 12:40:30.638680
- Title: RealNet: Combining Optimized Object Detection with Information Fusion
Depth Estimation Co-Design Method on IoT
- Title(参考訳): RealNet: 最適化対象検出と情報融合深さ推定を組み合わせたIoT設計
- Authors: Zhuohao Li, Fandi Gou, Qixin De, Leqi Ding, Yuanhang Zhang, Yunze Cai
- Abstract要約: 本稿では,モデル流線形認識アルゴリズム,深度推定アルゴリズム,情報融合を組み合わせた共同設計手法を提案する。
本稿では,リアルタイム要求の高いモバイルプラットフォームに適した手法を提案する。
- 参考スコア(独自算出の注目度): 2.9275056713717285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth Estimation and Object Detection Recognition play an important role in
autonomous driving technology under the guidance of deep learning artificial
intelligence. We propose a hybrid structure called RealNet: a co-design method
combining the model-streamlined recognition algorithm, the depth estimation
algorithm with information fusion, and deploying them on the Jetson-Nano for
unmanned vehicles with monocular vision sensors. We use ROS for experiment. The
method proposed in this paper is suitable for mobile platforms with high
real-time request. Innovation of our method is using information fusion to
compensate the problem of insufficient frame rate of output image, and improve
the robustness of target detection and depth estimation under monocular
vision.Object Detection is based on YOLO-v5. We have simplified the network
structure of its DarkNet53 and realized a prediction speed up to 0.01s. Depth
Estimation is based on the VNL Depth Estimation, which considers multiple
geometric constraints in 3D global space. It calculates the loss function by
calculating the deviation of the virtual normal vector VN and the label, which
can obtain deeper depth information. We use PnP fusion algorithm to solve the
problem of insufficient frame rate of depth map output. It solves the motion
estimation depth from three-dimensional target to two-dimensional point based
on corner feature matching, which is faster than VNL calculation. We
interpolate VNL output and PnP output to achieve information fusion.
Experiments show that this can effectively eliminate the jitter of depth
information and improve robustness. At the control end, this method combines
the results of target detection and depth estimation to calculate the target
position, and uses a pure tracking control algorithm to track it.
- Abstract(参考訳): 深度推定と物体検出認識は、ディープラーニング人工知能の指導の下で自律運転技術において重要な役割を果たす。
本稿では,モデル流線形認識アルゴリズムと深度推定アルゴリズムと情報融合を組み合わせた協調設計手法であるRealNetというハイブリッド構造を提案し,それらを単眼視覚センサを用いた無人車両のJetson-Nano上に展開する。
実験にはROSを使用します。
本稿では,リアルタイム要求の高いモバイルプラットフォームに適した手法を提案する。
本手法の革新は、情報融合を用いて出力画像のフレームレートの不足を補償し、単眼視下での目標検出と深度推定のロバスト性を向上させることである。
我々はdarknet53のネットワーク構造を簡略化し,0.01sまでの予測速度を実現する。
深さ推定は3次元大域空間における複数の幾何学的制約を考慮したVNL深さ推定に基づいている。
仮想正規ベクトルVNとラベルとのずれを計算して損失関数を算出し、深度情報を得ることができる。
我々は pnp fusion アルゴリズムを用いて, 深度マップ出力のフレームレートの不足問題を解く。
VNL計算よりも高速なコーナー特徴マッチングに基づいて3次元目標から2次元点への運動推定深度を解く。
我々は情報融合を実現するためにVNL出力とPnP出力を補間する。
実験により, 深度情報のジッタを効果的に除去し, 堅牢性を向上できることが示された。
制御端では、目標検出と深さ推定の結果を組み合わせて目標位置を計算し、純粋なトラッキング制御アルゴリズムを用いて追跡する。
関連論文リスト
- NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - MDS-Net: A Multi-scale Depth Stratification Based Monocular 3D Object
Detection Algorithm [4.958840734249869]
本論文では,マルチスケール深度層構造に基づく1段モノクロ3次元物体検出アルゴリズムを提案する。
KITTIベンチマークの実験では、MDS-Netは既存のモノクル3D検出方法よりも3D検出やBEV検出タスクに優れていた。
論文 参考訳(メタデータ) (2022-01-12T07:11:18Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Geometry Uncertainty Projection Network for Monocular 3D Object
Detection [138.24798140338095]
本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。
具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。
トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
論文 参考訳(メタデータ) (2021-07-29T06:59:07Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Monocular 3D Object Detection with Sequential Feature Association and
Depth Hint Augmentation [12.55603878441083]
FADNetは、モノクル3Dオブジェクト検出の課題に対処するために提示される。
専用のディープヒントモジュールは、ディープヒントと呼ばれる行ワイズ機能を生成するように設計されている。
この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。
論文 参考訳(メタデータ) (2020-11-30T07:19:14Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。