論文の概要: 3D Object Aided Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2212.01768v1
- Date: Sun, 4 Dec 2022 08:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:16:55.908019
- Title: 3D Object Aided Self-Supervised Monocular Depth Estimation
- Title(参考訳): 3次元物体を用いた自己監督単眼深度推定
- Authors: Songlin Wei, Guodong Chen, Wenzheng Chi, Zhenhua Wang and Lining Sun
- Abstract要約: 本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3Dオブジェクトを検出し、検出されたオブジェクトのポーズと動的ピクセル間の対応性を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
- 参考スコア(独自算出の注目度): 5.579605877061333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation has been actively studied in fields such as robot
vision, autonomous driving, and 3D scene understanding. Given a sequence of
color images, unsupervised learning methods based on the framework of
Structure-From-Motion (SfM) simultaneously predict depth and camera relative
pose. However, dynamically moving objects in the scene violate the static world
assumption, resulting in inaccurate depths of dynamic objects. In this work, we
propose a new method to address such dynamic object movements through monocular
3D object detection. Specifically, we first detect 3D objects in the images and
build the per-pixel correspondence of the dynamic pixels with the detected
object pose while leaving the static pixels corresponding to the rigid
background to be modeled with camera motion. In this way, the depth of every
pixel can be learned via a meaningful geometry model. Besides, objects are
detected as cuboids with absolute scale, which is used to eliminate the scale
ambiguity problem inherent in monocular vision. Experiments on the KITTI depth
dataset show that our method achieves State-of-The-Art performance for depth
estimation. Furthermore, joint training of depth, camera motion and object pose
also improves monocular 3D object detection performance. To the best of our
knowledge, this is the first work that allows a monocular 3D object detection
network to be fine-tuned in a self-supervised manner.
- Abstract(参考訳): 単眼深度推定は、ロボットビジョン、自律運転、三次元シーン理解などの分野で積極的に研究されている。
色画像のシーケンスが与えられると、構造から動き(sfm)の枠組みに基づく教師なし学習手法は、深度とカメラの相対的なポーズを同時に予測する。
しかし、シーン内で動的に動く物体は静的世界仮定に反し、動的物体の深さが不正確な結果となる。
本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3dオブジェクトを検出し、カメラの動きでモデル化する硬い背景に対応する静的ピクセルを残しながら、検出されたオブジェクトポーズと動的ピクセルのピクセル単位の対応を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
さらに、物体は絶対スケールの立方体として検出され、単眼に固有のスケール曖昧性問題を取り除くために用いられる。
KITTI深度データセットの実験により,本手法は深度推定のための最先端性能を実現する。
さらに、深度、カメラモーション、オブジェクトポーズのジョイントトレーニングにより、モノクロ3Dオブジェクト検出性能も向上する。
私たちの知る限りでは、これは単眼の3dオブジェクト検出ネットワークを自己監督で微調整できる最初の仕事です。
関連論文リスト
- DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - MoGDE: Boosting Mobile Monocular 3D Object Detection with Ground Depth
Estimation [20.697822444708237]
画像の基底深度を常に推定する新しいMono3DフレームワークであるMoGDEを提案する。
MoGDEは最先端の手法と比較して大きなマージンで最高の性能を示し、KITTI 3Dベンチマークで第1位にランクされている。
論文 参考訳(メタデータ) (2023-03-23T04:06:01Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - Monocular Differentiable Rendering for Self-Supervised 3D Object
Detection [21.825158925459732]
単分子画像からの3次元物体検出は、深さとスケールの射影的絡み合いにより不適切な問題である。
テクスチャ化された3次元形状の再構成と剛体物体のポーズ推定のための新しい自己教師手法を提案する。
本手法は,画像中の物体の3次元位置とメッシュを,異なるレンダリングと自己教師対象を用いて予測する。
論文 参考訳(メタデータ) (2020-09-30T09:21:43Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。