論文の概要: Monocular 3D Object Detection with Depth from Motion
- arxiv url: http://arxiv.org/abs/2207.12988v1
- Date: Tue, 26 Jul 2022 15:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 13:25:57.475351
- Title: Monocular 3D Object Detection with Depth from Motion
- Title(参考訳): 運動深度による単眼的3次元物体検出
- Authors: Tai Wang, Jiangmiao Pang, Dahua Lin
- Abstract要約: 我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 74.29588921594853
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Perceiving 3D objects from monocular inputs is crucial for robotic systems,
given its economy compared to multi-sensor settings. It is notably difficult as
a single image can not provide any clues for predicting absolute depth values.
Motivated by binocular methods for 3D object detection, we take advantage of
the strong geometry structure provided by camera ego-motion for accurate object
depth estimation and detection. We first make a theoretical analysis on this
general two-view case and notice two challenges: 1) Cumulative errors from
multiple estimations that make the direct prediction intractable; 2) Inherent
dilemmas caused by static cameras and matching ambiguity. Accordingly, we
establish the stereo correspondence with a geometry-aware cost volume as the
alternative for depth estimation and further compensate it with monocular
understanding to address the second problem. Our framework, named Depth from
Motion (DfM), then uses the established geometry to lift 2D image features to
the 3D space and detects 3D objects thereon. We also present a pose-free DfM to
make it usable when the camera pose is unavailable. Our framework outperforms
state-of-the-art methods by a large margin on the KITTI benchmark. Detailed
quantitative and qualitative analyses also validate our theoretical
conclusions. The code will be released at
https://github.com/Tai-Wang/Depth-from-Motion.
- Abstract(参考訳): 単分子入力から3Dオブジェクトを認識することは、ロボットシステムにとって重要である。
単一の画像では絶対深度の値を予測する手がかりが得られないため、特に難しい。
3次元物体検出のための双眼法によって動機づけられたカメラエゴモーションによる強幾何構造を利用して,高精度物体深度推定と検出を行う。
まず、この一般的な二視点のケースを理論的に分析し、2つの課題に気づきます。
1) 直接予測を困難にする複数の推定からの累積誤差
2)静的カメラによる固有ジレンマとあいまいさの一致。
そこで,形状認識コストボリュームとのステレオ対応を深さ推定の代替として確立し,さらにそれを単眼的理解で補い,第2の問題に対処する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
また、ポーズのないDfMをカメラのポーズが使えないときに使用できるようにする。
当社のフレームワークはkittiベンチマークで最先端のメソッドを大差で上回っている。
詳細な量的・質的分析も理論的な結論を裏付ける。
コードはhttps://github.com/Tai-Wang/Depth-from-Motion.comで公開される。
関連論文リスト
- MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors [24.753860375872215]
本稿では,MonoDGPと呼ばれるトランスフォーマーを用いたモノクロ3Dオブジェクト検出手法を提案する。
射影公式を変更するために、パースペクティブ不変幾何誤差を採用する。
提案手法は, 余分なデータを必要としないKITTIベンチマークにおいて, 最先端の性能を示す。
論文 参考訳(メタデータ) (2024-10-25T14:31:43Z) - Tame a Wild Camera: In-the-Wild Monocular Camera Calibration [12.55056916519563]
以前のモノクロカメラのキャリブレーション法は、特定の3Dオブジェクトやそれ以前の強力な幾何学に依存していた。
提案手法は仮定フリーであり,Def(Degree-of-Freedom)固有のパラメータを4ドル(約4,400円)で校正する。
画像操作検出と復元,2次元ポーズ推定,3次元センシングにおける下流の応用を実証する。
論文 参考訳(メタデータ) (2023-06-19T14:55:26Z) - 3D Object Aided Self-Supervised Monocular Depth Estimation [5.579605877061333]
本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3Dオブジェクトを検出し、検出されたオブジェクトのポーズと動的ピクセル間の対応性を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
論文 参考訳(メタデータ) (2022-12-04T08:52:33Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。