論文の概要: MonoGRNet: A General Framework for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2104.08797v1
- Date: Sun, 18 Apr 2021 10:07:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:53:16.051226
- Title: MonoGRNet: A General Framework for Monocular 3D Object Detection
- Title(参考訳): MonoGRNet: モノクロ3Dオブジェクト検出のための汎用フレームワーク
- Authors: Zengyi Qin, Jinglu Wang, Yan Lu
- Abstract要約: 幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
- 参考スコア(独自算出の注目度): 23.59839921644492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting and localizing objects in the real 3D space, which plays a crucial
role in scene understanding, is particularly challenging given only a monocular
image due to the geometric information loss during imagery projection. We
propose MonoGRNet for the amodal 3D object detection from a monocular image via
geometric reasoning in both the observed 2D projection and the unobserved depth
dimension. MonoGRNet decomposes the monocular 3D object detection task into
four sub-tasks including 2D object detection, instance-level depth estimation,
projected 3D center estimation and local corner regression. The task
decomposition significantly facilitates the monocular 3D object detection,
allowing the target 3D bounding boxes to be efficiently predicted in a single
forward pass, without using object proposals, post-processing or the
computationally expensive pixel-level depth estimation utilized by previous
methods. In addition, MonoGRNet flexibly adapts to both fully and weakly
supervised learning, which improves the feasibility of our framework in diverse
settings. Experiments are conducted on KITTI, Cityscapes and MS COCO datasets.
Results demonstrate the promising performance of our framework in various
scenarios.
- Abstract(参考訳): シーン理解において重要な役割を果たす実3次元空間における物体の検出と局所化は、投影中の幾何学的情報損失による単眼像のみを考えると特に困難である。
観測された2次元投影と観測されていない深さ次元の両方の幾何学的推論により,モノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノクロ3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3D中心推定、局所角回帰を含む4つのサブタスクに分解する。
タスク分解は、対象の3D境界ボックスを1つの前方通過で効率よく予測し、オブジェクトの提案、後処理、あるいは従来手法が用いた計算コストの高い画素レベルの深さ推定を使わずに、モノラルな3Dオブジェクト検出を著しく促進する。
さらに、MonoGRNetは完全な教師付き学習と弱い教師付き学習の両方に柔軟に適応します。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
その結果,様々なシナリオにおいて,フレームワークの有望な性能を示すことができた。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Categorical Depth Distribution Network for Monocular 3D Object Detection [7.0405916639906785]
モノラル3D検出の重要な課題は、物体の深度を正確に予測することです。
多くの手法は3次元検出を支援するために直接深度を推定しようとするが、深度不正確な結果、限られた性能を示す。
Categorical Depth Distribution Network (CADDN) を提案し、3次元空間の適切な深さ間隔にリッチなコンテキスト特徴情報を投影する。
提案手法をkitti 3d object detection benchmarkで検証し, 単項法のうち1位にランク付けした。
論文 参考訳(メタデータ) (2021-03-01T16:08:29Z) - Monocular Differentiable Rendering for Self-Supervised 3D Object
Detection [21.825158925459732]
単分子画像からの3次元物体検出は、深さとスケールの射影的絡み合いにより不適切な問題である。
テクスチャ化された3次元形状の再構成と剛体物体のポーズ推定のための新しい自己教師手法を提案する。
本手法は,画像中の物体の3次元位置とメッシュを,異なるレンダリングと自己教師対象を用いて予測する。
論文 参考訳(メタデータ) (2020-09-30T09:21:43Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Object-Aware Centroid Voting for Monocular 3D Object Detection [30.59728753059457]
本研究では, 深度を学習することなく, 終端から終端までトレーニング可能な単分子3次元物体検出器を提案する。
領域的外見の注意と幾何学的射影分布の両面を考慮した,新しいオブジェクト認識型投票手法が導入された。
遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。
論文 参考訳(メタデータ) (2020-07-20T02:11:18Z) - Monocular 3D Object Detection with Decoupled Structured Polygon
Estimation and Height-Guided Depth Estimation [41.29145717658494]
本稿では,検出問題を構造化ポリゴン予測タスクと深度回復タスクに分解する新しい統合フレームワークを提案する。
広く使われている3Dバウンディングボックスの提案と比較すると、3D検出のためのより良い表現であることが示されている。
KITTIベンチマークにおいて,本手法が最先端検出精度を実現するための実験を行った。
論文 参考訳(メタデータ) (2020-02-05T03:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。