論文の概要: Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2103.16470v1
- Date: Tue, 30 Mar 2021 16:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 16:17:21.523004
- Title: Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection
- Title(参考訳): 深度条件付き動的メッセージ伝搬によるモノクロ3次元物体検出
- Authors: Li Wang, Liang Du, Xiaoqing Ye, Yanwei Fu, Guodong Guo, Xiangyang Xue,
Jianfeng Feng, Li Zhang
- Abstract要約: モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
- 参考スコア(独自算出の注目度): 86.25022248968908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of this paper is to learn context- and depth-aware feature
representation to solve the problem of monocular 3D object detection. We make
following contributions: (i) rather than appealing to the complicated
pseudo-LiDAR based approach, we propose a depth-conditioned dynamic message
propagation (DDMP) network to effectively integrate the multi-scale depth
information with the image context;(ii) this is achieved by first adaptively
sampling context-aware nodes in the image context and then dynamically
predicting hybrid depth-dependent filter weights and affinity matrices for
propagating information; (iii) by augmenting a center-aware depth encoding
(CDE) task, our method successfully alleviates the inaccurate depth prior; (iv)
we thoroughly demonstrate the effectiveness of our proposed approach and show
state-of-the-art results among the monocular-based approaches on the KITTI
benchmark dataset. Particularly, we rank $1^{st}$ in the highly competitive
KITTI monocular 3D object detection track on the submission day (November 16th,
2020). Code and models are released at \url{https://github.com/fudan-zvg/DDMP}
- Abstract(参考訳): 本研究の目的は,モノクロ3次元物体検出の課題を解決するために,文脈・奥行き認識特徴表現を学習することである。
We make following contributions: (i) rather than appealing to the complicated pseudo-LiDAR based approach, we propose a depth-conditioned dynamic message propagation (DDMP) network to effectively integrate the multi-scale depth information with the image context;(ii) this is achieved by first adaptively sampling context-aware nodes in the image context and then dynamically predicting hybrid depth-dependent filter weights and affinity matrices for propagating information; (iii) by augmenting a center-aware depth encoding (CDE) task, our method successfully alleviates the inaccurate depth prior; (iv) we thoroughly demonstrate the effectiveness of our proposed approach and show state-of-the-art results among the monocular-based approaches on the KITTI benchmark dataset.
特に、提出日(2020年11月16日)には、競争の激しいkitti monocular 3d object detection trackで$1^{st}$をランク付けしました。
コードとモデルは \url{https://github.com/fudan-zvg/DDMP} でリリースされる。
関連論文リスト
- PMPNet: Pixel Movement Prediction Network for Monocular Depth Estimation in Dynamic Scenes [7.736445799116692]
動的シーンにおける単眼深度推定のための新しい手法を提案する。
まず,動的シーンにおける物体の運動軌跡の任意性について理論的に検討する。
エッジ周辺の深度不整合を克服するために,変形可能なサポートウィンドウモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-04T03:42:29Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Depth-Cooperated Trimodal Network for Video Salient Object Detection [13.727763221832532]
我々はDCTNet(Deep-operated triOD network)を提案する。
この目的のために、まずRGBフレームから深度を生成し、次に3つのモダリティを不等に扱うアプローチを提案する。
また、各モードの雑音を抑えるための改良融合モジュール(RFM)を導入し、機能改善のために有用な情報を動的に選択する。
論文 参考訳(メタデータ) (2022-02-12T13:04:16Z) - MDS-Net: A Multi-scale Depth Stratification Based Monocular 3D Object
Detection Algorithm [4.958840734249869]
本論文では,マルチスケール深度層構造に基づく1段モノクロ3次元物体検出アルゴリズムを提案する。
KITTIベンチマークの実験では、MDS-Netは既存のモノクル3D検出方法よりも3D検出やBEV検出タスクに優れていた。
論文 参考訳(メタデータ) (2022-01-12T07:11:18Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Monocular 3D Object Detection with Sequential Feature Association and
Depth Hint Augmentation [12.55603878441083]
FADNetは、モノクル3Dオブジェクト検出の課題に対処するために提示される。
専用のディープヒントモジュールは、ディープヒントと呼ばれる行ワイズ機能を生成するように設計されている。
この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。
論文 参考訳(メタデータ) (2020-11-30T07:19:14Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。