論文の概要: Recursive Cross-View: Use Only 2D Detectors to Achieve 3D Object
Detection without 3D Annotations
- arxiv url: http://arxiv.org/abs/2211.07108v1
- Date: Mon, 14 Nov 2022 04:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 18:35:39.056815
- Title: Recursive Cross-View: Use Only 2D Detectors to Achieve 3D Object
Detection without 3D Annotations
- Title(参考訳): 再帰的クロスビュー: 3dアノテーションなしで3dオブジェクト検出を実現するために2d検出器のみを使用する
- Authors: Shun Gui and Yan Luximon
- Abstract要約: この手法はRCV(Recursive Cross-View)と呼ばれ、3次元検出を複数の2次元検出タスクに変換する。
RCVは3Dラベルを消費せず、ポイントクラウド上で完全な3Dボックスを生成する最初の3D検出方法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heavily relying on 3D annotations limits the real-world application of 3D
object detection. In this paper, we propose a method that does not demand any
3D annotation, while being able to predict full-oriented 3D bounding boxes. Our
method, called Recursive Cross-View (RCV), transforms 3D detection into several
2D detection tasks, which only consume some 2D labels, based on the three-view
principle. We propose a recursive paradigm, in which instance segmentation and
3D bounding box generation by Cross-View are implemented recursively until
convergence. Specifically, a frustum is proposed via a 2D detector, followed by
the recursive paradigm that finally outputs a full-oriented 3D box, class, and
score. To justify that our method can be quickly used to new tasks in
real-world scenarios, we do three experiments, namely indoor 3D human
detection, full-oriented 3D hand detection, and real-time detection on a real
3D sensor. RCV achieves decent performance in these experiments. Once trained,
our method can be viewed as a 3D annotation tool. Consequently, we formulate
two 3D labeled dataset, namely '3D_HUMAN' and 'D_HAND', based on RCV, which
could be used to pre-train other 3D detectors. Furthermore, estimated on the
SUN RGB-D benchmark, our method achieves comparable performance with some full
3D supervised learning methods. RCV is the first 3D detection method that does
not consume 3D labels and yields full-oriented 3D boxes on point clouds.
- Abstract(参考訳): 3Dアノテーションに大きく依存することは、3Dオブジェクト検出の現実的な応用を制限する。
本稿では,完全指向の3dバウンディングボックスを予測しながら,いかなる3dアノテーションも必要としない手法を提案する。
提案手法は,Recursive Cross-View (RCV) と呼ばれ,3次元の原理に基づいて3次元検出を複数の2次元検出タスクに変換する。
そこで我々は,Cross-Viewによるインスタンス分割と3次元境界ボックス生成を収束するまで再帰的に行う再帰的パラダイムを提案する。
具体的には、フラストラムは2D検出器を介して提案され、続いて完全な3Dボックス、クラス、スコアを出力する再帰パラダイムが提案される。
実世界のシナリオで新たなタスクに迅速に使用できることを正当化するために,屋内3d人間検出,全方向3dハンド検出,実3dセンサによるリアルタイム検出という3つの実験を行った。
RCVはこれらの実験で十分な性能を発揮する。
トレーニングを済ませば、3Dアノテーションツールとして見ることができます。
その結果、他の3D検出器の事前訓練に使用できるRCVに基づく2つの3Dラベル付きデータセット、すなわち「3D_HUMAN」と「D_HAND」を定式化した。
さらに,sun rgb-dベンチマークで推定した本手法は,全3次元教師付き学習手法と同等の性能を実現する。
RCVは3Dラベルを消費せず、ポイントクラウド上で完全な3Dボックスを生成する最初の3D検出方法である。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。