論文の概要: RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving
- arxiv url: http://arxiv.org/abs/2001.03343v1
- Date: Fri, 10 Jan 2020 08:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 23:48:08.641234
- Title: RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving
- Title(参考訳): RTM3D: 自律運転のためのオブジェクトキーポイントからのリアルタイム単眼3D検出
- Authors: Peixuan Li, Huaici Zhao, Pengfei Liu, Feidao Cao
- Abstract要約: 最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
- 参考スコア(独自算出の注目度): 26.216609821525676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose an efficient and accurate monocular 3D detection
framework in single shot. Most successful 3D detectors take the projection
constraint from the 3D bounding box to the 2D box as an important component.
Four edges of a 2D box provide only four constraints and the performance
deteriorates dramatically with the small error of the 2D detector. Different
from these approaches, our method predicts the nine perspective keypoints of a
3D bounding box in image space, and then utilize the geometric relationship of
3D and 2D perspectives to recover the dimension, location, and orientation in
3D space. In this method, the properties of the object can be predicted stably
even when the estimation of keypoints is very noisy, which enables us to obtain
fast detection speed with a small architecture. Training our method only uses
the 3D properties of the object without the need for external networks or
supervision data. Our method is the first real-time system for monocular image
3D detection while achieves state-of-the-art performance on the KITTI
benchmark. Code will be released at https://github.com/Banconxuan/RTM3D.
- Abstract(参考訳): 本研究では,単発撮影で効率よく高精度な単分子3D検出フレームワークを提案する。
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
2Dボックスの4つのエッジは4つの制約しか提供せず、2D検出器の小さなエラーによって性能が劇的に低下する。
これらのアプローチと異なり,画像空間における3次元境界ボックスの9つの視点キーポイントを予測し,3次元視点と2次元視点の幾何学的関係を利用して3次元空間の次元,位置,方向を復元する。
本手法では,キーポイントの推定が非常にノイズの多い場合でも,オブジェクトの特性を安定して予測できるので,小さなアーキテクチャで高速な検出速度を得ることができる。
トレーニング このメソッドは、外部ネットワークや監督データを必要としないオブジェクトの3dプロパティのみを使用する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
コードはhttps://github.com/Banconxuan/RTM3Dでリリースされる。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - 3D Implicit Transporter for Temporally Consistent Keypoint Discovery [45.152790256675964]
キーポイントに基づく表現は、様々な視覚的およびロボット的タスクにおいて有利であることが証明されている。
トランスポーター法は、2次元データに対して導入され、ソースフレームからターゲットフレームを再構成し、空間情報と時間情報の両方を組み込む。
本稿では,ハイブリッド3次元表現,クロスアテンション,暗黙の再構築を活用したトランスポーターの最初の3次元バージョンを提案する。
論文 参考訳(メタデータ) (2023-09-10T17:59:48Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries [43.02373021724797]
マルチカメラ3Dオブジェクト検出のためのフレームワークを提案する。
本手法は3次元空間での予測を直接操作する。
我々はnuScenes自動運転ベンチマークで最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-10-13T17:59:35Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Object-Aware Centroid Voting for Monocular 3D Object Detection [30.59728753059457]
本研究では, 深度を学習することなく, 終端から終端までトレーニング可能な単分子3次元物体検出器を提案する。
領域的外見の注意と幾何学的射影分布の両面を考慮した,新しいオブジェクト認識型投票手法が導入された。
遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。
論文 参考訳(メタデータ) (2020-07-20T02:11:18Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。