論文の概要: Homography Loss for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2204.00754v1
- Date: Sat, 2 Apr 2022 03:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:44:56.842068
- Title: Homography Loss for Monocular 3D Object Detection
- Title(参考訳): 単眼3次元物体検出におけるホモグラフィ損失
- Authors: Jiaqi Gu, Bojian Wu, Lubin Fan, Jianqiang Huang, Shen Cao, Zhiyu
Xiang, Xian-Sheng Hua
- Abstract要約: ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
- 参考スコア(独自算出の注目度): 54.04870007473932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection is an essential task in autonomous driving.
However, most current methods consider each 3D object in the scene as an
independent training sample, while ignoring their inherent geometric relations,
thus inevitably resulting in a lack of leveraging spatial constraints. In this
paper, we propose a novel method that takes all the objects into consideration
and explores their mutual relationships to help better estimate the 3D boxes.
Moreover, since 2D detection is more reliable currently, we also investigate
how to use the detected 2D boxes as guidance to globally constrain the
optimization of the corresponding predicted 3D boxes. To this end, a
differentiable loss function, termed as Homography Loss, is proposed to achieve
the goal, which exploits both 2D and 3D information, aiming at balancing the
positional relationships between different objects by global constraints, so as
to obtain more accurately predicted 3D boxes. Thanks to the concise design, our
loss function is universal and can be plugged into any mature monocular 3D
detector, while significantly boosting the performance over their baseline.
Experiments demonstrate that our method yields the best performance (Nov. 2021)
compared with the other state-of-the-arts by a large margin on KITTI 3D
datasets.
- Abstract(参考訳): モノクロ3D物体検出は自律運転において不可欠な課題である。
しかし、現在のほとんどの手法では、シーン内の各3次元オブジェクトを独立したトレーニングサンプルと見なしているが、それら固有の幾何学的関係を無視しているため、必然的に空間的制約を活用できない。
本稿では,すべての物体を考慮に入れ,相互関係を探求し,より正確な3Dボックスの推定を支援する手法を提案する。
さらに,現在より信頼性が高いため,検出された2Dボックスを,対応する予測された3Dボックスの最適化をグローバルに制約するためのガイダンスとして利用する方法についても検討する。
この目的を達成するために,2次元情報と3次元情報の両方を利用して,グローバル制約による異物間の位置関係のバランスを図り,より正確に予測可能な3次元ボックスを得るための微分損失関数が提案されている。
この簡潔な設計のおかげで、損失関数は普遍的であり、任意の成熟した単分子3D検出器に差し込むことができる。
実験の結果,KITTIの3Dデータセットでは,他の最先端技術と比較して高い性能(2021年12月)が得られた。
関連論文リスト
- V-MIND: Building Versatile Monocular Indoor 3D Detector with Diverse 2D Annotations [17.49394091283978]
V-MIND(Versatile Monocular Indoor Detector)は,室内3D検出器の性能を向上させる。
大規模2次元画像を3次元点雲に変換し,その後に擬似3次元境界ボックスを導出することにより,3次元学習データを生成する。
V-MINDはOmni3D屋内データセット上の幅広いクラスにわたる最先端のオブジェクト検出性能を実現する。
論文 参考訳(メタデータ) (2024-12-16T03:28:00Z) - DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-12-06T07:22:20Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - 3D for Free: Crossmodal Transfer Learning using HD Maps [36.70550754737353]
最新の2Dデータセットの大規模なクラスタコノミクスと、最先端2D検出手法の堅牢性を活用している。
私たちは、自動運転車からラベルのないマルチモーダル運転ログ1151のコレクションをマイニングしています。
よりラベルのないデータをマイニングすることにより,検出器の性能が向上することを示す。
論文 参考訳(メタデータ) (2020-08-24T17:54:51Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。