論文の概要: AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2108.11127v1
- Date: Wed, 25 Aug 2021 08:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 12:59:47.976313
- Title: AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection
- Title(参考訳): AutoShape:リアルタイム形状認識モノクロ3Dオブジェクト検出
- Authors: Zongdai Liu, Dingfu Zhou, Feixiang Lu, Jin Fang and Liangjun Zhang
- Abstract要約: 形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
- 参考スコア(独自算出の注目度): 15.244852122106634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing deep learning-based approaches for monocular 3D object detection in
autonomous driving often model the object as a rotated 3D cuboid while the
object's geometric shape has been ignored. In this work, we propose an approach
for incorporating the shape-aware 2D/3D constraints into the 3D detection
framework. Specifically, we employ the deep neural network to learn
distinguished 2D keypoints in the 2D image domain and regress their
corresponding 3D coordinates in the local 3D object coordinate first. Then the
2D/3D geometric constraints are built by these correspondences for each object
to boost the detection performance. For generating the ground truth of 2D/3D
keypoints, an automatic model-fitting approach has been proposed by fitting the
deformed 3D object model and the object mask in the 2D image. The proposed
framework has been verified on the public KITTI dataset and the experimental
results demonstrate that by using additional geometrical constraints the
detection performance has been significantly improved as compared to the
baseline method. More importantly, the proposed framework achieves
state-of-the-art performance with real time. Data and code will be available at
https://github.com/zongdai/AutoShape
- Abstract(参考訳): 既存のディープラーニングに基づく自律運転におけるモノクロ3d物体検出手法では、物体の幾何学的形状が無視されているにもかかわらず、物体を回転3d立方体としてモデル化することが多い。
本研究では,形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2D画像領域の区別された2Dキーポイントを学習し、その対応する3D座標をまず局所的な3Dオブジェクト座標に回帰する。
次に、各オブジェクトの対応によって2D/3D幾何学的制約を構築し、検出性能を高める。
2D/3Dキーポイントの基底真実を生成するために,変形した3Dオブジェクトモデルとオブジェクトマスクを2D画像に組み込むことにより,自動的なモデル適合手法を提案する。
提案手法はパブリックなKITTIデータセット上で検証され, 追加の幾何学的制約を用いることで, 検出性能がベースライン法と比較して有意に向上したことを示す。
さらに重要なのは,提案フレームワークがリアルタイムに最先端のパフォーマンスを実現することだ。
データとコードはhttps://github.com/zongdai/AutoShapeで入手できる。
関連論文リスト
- DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation [7.559220068352681]
本稿では,2次元と3次元で手とオブジェクトのポーズをリアルタイムに推定するHOPE-Netという軽量モデルを提案する。
我々のネットワークは2つの適応グラフ畳み込みニューラルネットワークのカスケードを用いており、1つは手関節と物体角の2D座標を推定し、もう1つは2D座標を3Dに変換する。
論文 参考訳(メタデータ) (2020-03-31T19:01:42Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。