論文の概要: Geometry-based Distance Decomposition for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2104.03775v1
- Date: Thu, 8 Apr 2021 13:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:04:36.804258
- Title: Geometry-based Distance Decomposition for Monocular 3D Object Detection
- Title(参考訳): モノクロ3次元物体検出のための幾何学的距離分解
- Authors: Xuepeng Shi, Qi Ye, Xiaozhi Chen, Chuangrong Chen, Zhixiang Chen,
Tae-Kyun Kim
- Abstract要約: 本研究では,その要因により距離を回復する新しい幾何学的距離分解法を提案する。
分解の要因は、最も代表的かつ安定な変数へのオブジェクトの距離である。
RGB画像から3Dバウンディングボックスをコンパクトなアーキテクチャで直接予測します。
- 参考スコア(独自算出の注目度): 48.63934632884799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection is of great significance for autonomous driving
but remains challenging. The core challenge is to predict the distance of
objects in the absence of explicit depth information. Unlike regressing the
distance as a single variable in most existing methods, we propose a novel
geometry-based distance decomposition to recover the distance by its factors.
The decomposition factors the distance of objects into the most representative
and stable variables, i.e. the physical height and the projected visual height
in the image plane. Moreover, the decomposition maintains the self-consistency
between the two heights, leading to the robust distance prediction when both
predicted heights are inaccurate. The decomposition also enables us to trace
the cause of the distance uncertainty for different scenarios. Such
decomposition makes the distance prediction interpretable, accurate, and
robust. Our method directly predicts 3D bounding boxes from RGB images with a
compact architecture, making the training and inference simple and efficient.
The experimental results show that our method achieves the state-of-the-art
performance on the monocular 3D Object detection and Birds Eye View tasks on
the KITTI dataset, and can generalize to images with different camera
intrinsics.
- Abstract(参考訳): モノクロ3D物体検出は自動運転にとって非常に重要であるが、依然として困難である。
主な課題は、明示的な深度情報がない場合の物体の距離を予測することである。
既存のほとんどの手法では距離を単一変数として回帰するのとは異なり、新しい幾何学に基づく距離分解法を提案する。
分解因子は、最も代表的かつ安定な変数、すなわち、オブジェクトの距離を分解する。
画像平面の物理的高さと投影された視覚高さ。
さらに, この分解は, 2つの高さ間の自己一貫性を保ち, 両者が不正確な場合のロバストな距離予測に繋がる。
この分解により、異なるシナリオにおける距離の不確実性の原因を追跡できる。
このような分解は距離予測を解釈可能、正確、堅牢にする。
提案手法は,RGB画像からの3次元境界ボックスをコンパクトなアーキテクチャで直接予測し,学習と推論をシンプルかつ効率的にする。
実験の結果,KITTIデータセット上での単眼3次元物体検出と鳥眼視タスクの最先端性能を実現し,異なるカメラ固有の画像に一般化できることが示唆された。
関連論文リスト
- FocalPose++: Focal Length and Object Pose Estimation via Render and Compare [35.388094104164175]
本稿では,カメラオブジェクトの6Dポーズとカメラ焦点長を同時推定するニューラルレンダリング・アンド・コンペア手法であるFocalPose++を紹介する。
制御不能な環境で、既知の3Dモデルを記述する3つの挑戦的なベンチマークデータセットの結果を示す。
論文 参考訳(メタデータ) (2023-11-15T13:28:02Z) - Explicit3D: Graph Network with Spatial Inference for Single Image 3D
Object Detection [35.85544715234846]
本稿では,オブジェクトの幾何学的特徴と意味論的特徴に基づいて,Explicit3Dという動的スパースグラフパイプラインを提案する。
SUN RGB-Dデータセットによる実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。
論文 参考訳(メタデータ) (2023-02-13T16:19:54Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty
Propagation [4.202461384355329]
我々は,高密度な対応や幾何学を自己教師型で学習する,新しい3次元オブジェクト検出フレームワークMonoRUnを提案する。
提案手法は,KITTIベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-03-23T15:03:08Z) - Anchor Distance for 3D Multi-Object Distance Estimation from 2D Single
Shot [15.815583594196488]
シーン内の複数物体間の距離を,単写画像のみを用いてリアルタイムに推定する手法を提案する。
予測器がアンカー距離を使用する前に距離をキャッチし、距離に基づいてネットワークを訓練します。
提案手法は約30FPSの速度を実現し,既存の手法と比較して最低のRMSEを示す。
論文 参考訳(メタデータ) (2021-01-25T20:33:05Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。