論文の概要: MoGDE: Boosting Mobile Monocular 3D Object Detection with Ground Depth
Estimation
- arxiv url: http://arxiv.org/abs/2303.13561v1
- Date: Thu, 23 Mar 2023 04:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:07:32.948141
- Title: MoGDE: Boosting Mobile Monocular 3D Object Detection with Ground Depth
Estimation
- Title(参考訳): MoGDE:地深推定による移動単眼3次元物体検出の高速化
- Authors: Yunsong Zhou, Quan Liu, Hongzi Zhu, Yunzhe Li, Shan Chang, and Minyi
Guo
- Abstract要約: 画像の基底深度を常に推定する新しいMono3DフレームワークであるMoGDEを提案する。
MoGDEは最先端の手法と比較して大きなマージンで最高の性能を示し、KITTI 3Dベンチマークで第1位にランクされている。
- 参考スコア(独自算出の注目度): 20.697822444708237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection (Mono3D) in mobile settings (e.g., on a
vehicle, a drone, or a robot) is an important yet challenging task. Due to the
near-far disparity phenomenon of monocular vision and the ever-changing camera
pose, it is hard to acquire high detection accuracy, especially for far
objects. Inspired by the insight that the depth of an object can be well
determined according to the depth of the ground where it stands, in this paper,
we propose a novel Mono3D framework, called MoGDE, which constantly estimates
the corresponding ground depth of an image and then utilizes the estimated
ground depth information to guide Mono3D. To this end, we utilize a pose
detection network to estimate the pose of the camera and then construct a
feature map portraying pixel-level ground depth according to the 3D-to-2D
perspective geometry. Moreover, to improve Mono3D with the estimated ground
depth, we design an RGB-D feature fusion network based on the transformer
structure, where the long-range self-attention mechanism is utilized to
effectively identify ground-contacting points and pin the corresponding ground
depth to the image feature map. We conduct extensive experiments on the
real-world KITTI dataset. The results demonstrate that MoGDE can effectively
improve the Mono3D accuracy and robustness for both near and far objects. MoGDE
yields the best performance compared with the state-of-the-art methods by a
large margin and is ranked number one on the KITTI 3D benchmark.
- Abstract(参考訳): モバイル環境でのモノクロ3Dオブジェクト検出(例えば、車両、ドローン、ロボット)は、重要な課題でありながら難しい課題である。
単眼視と常に変化するカメラのポーズの遠距離差のため、特に遠方の物体では高い検出精度を得ることは困難である。
本論文では,物体の深度を地上の深度に応じて適切に決定できるという知見に触発され,画像の深度を常に推定し,推定した地深情報を用いてMono3Dを案内する,新しいMono3DフレームワークであるMoGDEを提案する。
この目的のために、ポーズ検出ネットワークを用いてカメラのポーズを推定し、3次元から2次元の視点形状に応じて画素レベルの深度を表す特徴マップを構築する。
さらに, 地中深度を推定してMono3Dを改善するために, 長距離自己認識機構を用いて地中接触点を効果的に同定し, 対応する地中深度を画像特徴マップにピン留めする, トランスフォーマ構造に基づくRGB-D機能融合ネットワークを設計する。
実世界のKITTIデータセットについて広範な実験を行った。
その結果,mogdeは近距離オブジェクトと遠距離オブジェクトの両方に対して,mono3dの精度とロバスト性を効果的に向上できることがわかった。
MoGDEは最先端の手法と比較して大きなマージンで最高の性能を示し、KITTI 3Dベンチマークで第1位にランクされている。
関連論文リスト
- Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - MonoPGC: Monocular 3D Object Detection with Pixel Geometry Contexts [6.639648061168067]
我々は、リッチなPixel Geometry Contextsを備えた新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるMonoPGCを提案する。
我々は,局所的および大域的な深度幾何学的知識を視覚的特徴に注入するために,画素深度推定を補助タスクとして導入し,設計深度クロスアテンションピラミッドモジュール(DCPM)を設計する。
さらに,3次元空間位置と奥行き認識機能を効率よく統合するDSATを提案する。
論文 参考訳(メタデータ) (2023-02-21T09:21:58Z) - 3D Object Aided Self-Supervised Monocular Depth Estimation [5.579605877061333]
本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3Dオブジェクトを検出し、検出されたオブジェクトのポーズと動的ピクセル間の対応性を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
論文 参考訳(メタデータ) (2022-12-04T08:52:33Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [61.89277940084792]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D
Object Detection [83.57300674285133]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。