論文の概要: MoGDE: Boosting Mobile Monocular 3D Object Detection with Ground Depth
Estimation
- arxiv url: http://arxiv.org/abs/2303.13561v1
- Date: Thu, 23 Mar 2023 04:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:07:32.948141
- Title: MoGDE: Boosting Mobile Monocular 3D Object Detection with Ground Depth
Estimation
- Title(参考訳): MoGDE:地深推定による移動単眼3次元物体検出の高速化
- Authors: Yunsong Zhou, Quan Liu, Hongzi Zhu, Yunzhe Li, Shan Chang, and Minyi
Guo
- Abstract要約: 画像の基底深度を常に推定する新しいMono3DフレームワークであるMoGDEを提案する。
MoGDEは最先端の手法と比較して大きなマージンで最高の性能を示し、KITTI 3Dベンチマークで第1位にランクされている。
- 参考スコア(独自算出の注目度): 20.697822444708237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection (Mono3D) in mobile settings (e.g., on a
vehicle, a drone, or a robot) is an important yet challenging task. Due to the
near-far disparity phenomenon of monocular vision and the ever-changing camera
pose, it is hard to acquire high detection accuracy, especially for far
objects. Inspired by the insight that the depth of an object can be well
determined according to the depth of the ground where it stands, in this paper,
we propose a novel Mono3D framework, called MoGDE, which constantly estimates
the corresponding ground depth of an image and then utilizes the estimated
ground depth information to guide Mono3D. To this end, we utilize a pose
detection network to estimate the pose of the camera and then construct a
feature map portraying pixel-level ground depth according to the 3D-to-2D
perspective geometry. Moreover, to improve Mono3D with the estimated ground
depth, we design an RGB-D feature fusion network based on the transformer
structure, where the long-range self-attention mechanism is utilized to
effectively identify ground-contacting points and pin the corresponding ground
depth to the image feature map. We conduct extensive experiments on the
real-world KITTI dataset. The results demonstrate that MoGDE can effectively
improve the Mono3D accuracy and robustness for both near and far objects. MoGDE
yields the best performance compared with the state-of-the-art methods by a
large margin and is ranked number one on the KITTI 3D benchmark.
- Abstract(参考訳): モバイル環境でのモノクロ3Dオブジェクト検出(例えば、車両、ドローン、ロボット)は、重要な課題でありながら難しい課題である。
単眼視と常に変化するカメラのポーズの遠距離差のため、特に遠方の物体では高い検出精度を得ることは困難である。
本論文では,物体の深度を地上の深度に応じて適切に決定できるという知見に触発され,画像の深度を常に推定し,推定した地深情報を用いてMono3Dを案内する,新しいMono3DフレームワークであるMoGDEを提案する。
この目的のために、ポーズ検出ネットワークを用いてカメラのポーズを推定し、3次元から2次元の視点形状に応じて画素レベルの深度を表す特徴マップを構築する。
さらに, 地中深度を推定してMono3Dを改善するために, 長距離自己認識機構を用いて地中接触点を効果的に同定し, 対応する地中深度を画像特徴マップにピン留めする, トランスフォーマ構造に基づくRGB-D機能融合ネットワークを設計する。
実世界のKITTIデータセットについて広範な実験を行った。
その結果,mogdeは近距離オブジェクトと遠距離オブジェクトの両方に対して,mono3dの精度とロバスト性を効果的に向上できることがわかった。
MoGDEは最先端の手法と比較して大きなマージンで最高の性能を示し、KITTI 3Dベンチマークで第1位にランクされている。
関連論文リスト
- OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - MonoPGC: Monocular 3D Object Detection with Pixel Geometry Contexts [6.639648061168067]
我々は、リッチなPixel Geometry Contextsを備えた新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるMonoPGCを提案する。
我々は,局所的および大域的な深度幾何学的知識を視覚的特徴に注入するために,画素深度推定を補助タスクとして導入し,設計深度クロスアテンションピラミッドモジュール(DCPM)を設計する。
さらに,3次元空間位置と奥行き認識機能を効率よく統合するDSATを提案する。
論文 参考訳(メタデータ) (2023-02-21T09:21:58Z) - 3D Object Aided Self-Supervised Monocular Depth Estimation [5.579605877061333]
本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3Dオブジェクトを検出し、検出されたオブジェクトのポーズと動的ピクセル間の対応性を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
論文 参考訳(メタデータ) (2022-12-04T08:52:33Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。