論文の概要: MonoDETR: Depth-aware Transformer for Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2203.13310v1
- Date: Thu, 24 Mar 2022 19:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 12:36:48.421736
- Title: MonoDETR: Depth-aware Transformer for Monocular 3D Object Detection
- Title(参考訳): MonoDETR:モノクロ3次元物体検出のための深度対応トランス
- Authors: Renrui Zhang, Han Qiu, Tai Wang, Xuanzhuo Xu, Ziyu Guo, Yu Qiao, Peng
Gao, Hongsheng Li
- Abstract要約: モノクロ3Dオブジェクト検出は、自動運転における長年の課題だった。
既存のほとんどの手法は、従来の2Dオブジェクト検出器に追従して、まずその中心で物体を位置決めし、次に中心に隣接する局所特徴を用いて3D属性を予測する。
深度対応TRansformer, MonoDETR を用いた単分子検出のための簡易フレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.86235584405794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection has long been a challenging task in autonomous
driving, which requires to decode 3D predictions solely from a single 2D image.
Most existing methods follow conventional 2D object detectors to first localize
objects by their centers, and then predict 3D attributes using
center-neighboring local features. However, such center-based pipeline views 3D
prediction as a subordinate task and lacks inter-object depth interactions with
global spatial clues. In this paper, we introduce a simple framework for
Monocular DEtection with depth-aware TRansformer, named MonoDETR. We enable the
vanilla transformer to be depth-aware and enforce the whole detection process
guided by depth. Specifically, we represent 3D object candidates as a set of
queries and produce non-local depth embeddings of the input image by a
lightweight depth predictor and an attention-based depth encoder. Then, we
propose a depth-aware decoder to conduct both inter-query and query-scene depth
feature communication. In this way, each object estimates its 3D attributes
adaptively from the depth-informative regions on the image, not limited by
center-around features. With minimal handcrafted designs, MonoDETR is an
end-to-end framework without additional data, anchors or NMS and achieves
competitive performance on KITTI benchmark among state-of-the-art center-based
networks. Extensive ablation studies demonstrate the effectiveness of our
approach and its potential to serve as a transformer baseline for future
monocular research. Code is available at
https://github.com/ZrrSkywalker/MonoDETR.git.
- Abstract(参考訳): モノクロ3Dオブジェクト検出は、単一の2D画像からのみ3D予測をデコードする必要がある、自動運転における長年の課題である。
既存の手法のほとんどは従来の2dオブジェクト検出器に従い、まずその中心でオブジェクトをローカライズし、次に中心に隣接した局所的な特徴を用いて3d属性を予測する。
しかし、このような中心ベースのパイプラインは3次元予測を従属タスクとして捉えており、対象間の深さの相互作用とグローバルな空間的手がかりを欠いている。
本稿では,Deep-Aware TRansformer を用いた単分子検出のための単純なフレームワーク MonoDETR を提案する。
我々は、バニラ変圧器を深度に認識させ、深度で案内される全検出プロセスを強制する。
具体的には、3Dオブジェクト候補をクエリの集合として表現し、軽量深度予測器と注目に基づく深度符号化器により入力画像の非局所深度埋め込みを生成する。
次に,問合せと問合せの深さ特徴の通信を行う奥行き認識デコーダを提案する。
このようにして、各オブジェクトはその3D属性を画像上の深さ不変領域から適応的に推定する。
最小限の手作り設計により、MonoDETRは、追加のデータやアンカー、NMSのないエンドツーエンドのフレームワークであり、最先端のセンターベースネットワーク間のKITTIベンチマーク上での競合性能を達成する。
広範なアブレーション研究は,今後の単眼研究におけるトランスフォーマーベースラインとしての有効性と有用性を示している。
コードはhttps://github.com/ZrrSkywalker/MonoDETR.gitで入手できる。
関連論文リスト
- OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - MonoCD: Monocular 3D Object Detection with Complementary Depths [9.186673054867866]
深度推定は単分子3次元物体検出に不可欠だが挑戦的なサブタスクである。
2つの新しい設計で深度の相補性を高めることを提案する。
KITTIベンチマーク実験により, 余分なデータを導入することなく, 最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-04-04T03:30:49Z) - MonoPGC: Monocular 3D Object Detection with Pixel Geometry Contexts [6.639648061168067]
我々は、リッチなPixel Geometry Contextsを備えた新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるMonoPGCを提案する。
我々は,局所的および大域的な深度幾何学的知識を視覚的特徴に注入するために,画素深度推定を補助タスクとして導入し,設計深度クロスアテンションピラミッドモジュール(DCPM)を設計する。
さらに,3次元空間位置と奥行き認識機能を効率よく統合するDSATを提案する。
論文 参考訳(メタデータ) (2023-02-21T09:21:58Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer [25.61949580447076]
モノクロ3Dオブジェクト検出のための新しいエンド・ツー・エンドディープ・アウェア・トランスフォーマネットワークであるMonoDTRを提案する。
1)Depth-Aware Feature Enhancement (DFE)モジュールは、余分な計算を必要とせずに暗黙的に深度認識機能を学習し、(2)Depth-Aware Transformer (DTR)モジュールは、文脈認識と深度認識機能をグローバルに統合する。
提案する深度認識モジュールは,既存の画像専用単分子3Dオブジェクト検出器に容易に接続でき,性能が向上する。
論文 参考訳(メタデータ) (2022-03-21T13:40:10Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。
MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。
KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-04-18T10:07:52Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。