論文の概要: Recursive Cross-View: Use Only 2D Detectors to Achieve 3D Object
Detection without 3D Annotations
- arxiv url: http://arxiv.org/abs/2211.07108v3
- Date: Tue, 12 Sep 2023 00:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 17:49:02.802331
- Title: Recursive Cross-View: Use Only 2D Detectors to Achieve 3D Object
Detection without 3D Annotations
- Title(参考訳): 再帰的クロスビュー: 3dアノテーションなしで3dオブジェクト検出を実現するために2d検出器のみを使用する
- Authors: Shun Gui and Yan Luximon
- Abstract要約: 本稿では,完全指向の3D境界ボックスを予測しながら,一切の3Dアノテーションを要求しない手法を提案する。
再帰的クロスビュー(Recursive Cross-View, RCV)と呼ばれる手法は, 3次元検出を複数の2次元検出タスクに変換するために3次元原理を利用する。
RCVは、3Dラベルを使わずに完全な3Dボックスを生成する最初の3D検出方法である。
- 参考スコア(独自算出の注目度): 0.5439020425819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heavily relying on 3D annotations limits the real-world application of 3D
object detection. In this paper, we propose a method that does not demand any
3D annotation, while being able to predict fully oriented 3D bounding boxes.
Our method, called Recursive Cross-View (RCV), utilizes the three-view
principle to convert 3D detection into multiple 2D detection tasks, requiring
only a subset of 2D labels. We propose a recursive paradigm, in which instance
segmentation and 3D bounding box generation by Cross-View are implemented
recursively until convergence. Specifically, our proposed method involves the
use of a frustum for each 2D bounding box, which is then followed by the
recursive paradigm that ultimately generates a fully oriented 3D box, along
with its corresponding class and score. Note that, class and score are given by
the 2D detector. Estimated on the SUN RGB-D and KITTI datasets, our method
outperforms existing image-based approaches. To justify that our method can be
quickly used to new tasks, we implement it on two real-world scenarios, namely
3D human detection and 3D hand detection. As a result, two new 3D annotated
datasets are obtained, which means that RCV can be viewed as a (semi-)
automatic 3D annotator. Furthermore, we deploy RCV on a depth sensor, which
achieves detection at 7 fps on a live RGB-D stream. RCV is the first 3D
detection method that yields fully oriented 3D boxes without consuming 3D
labels.
- Abstract(参考訳): 3Dアノテーションに大きく依存することは、3Dオブジェクト検出の現実的な応用を制限する。
本稿では,完全指向の3dバウンディングボックスを予測しながら,いかなる3dアノテーションも必要としない手法を提案する。
再帰的クロスビュー(RCV, Recursive Cross-View)と呼ばれる手法は3次元の原理を用いて3次元検出を複数の2次元検出タスクに変換する。
そこで我々は,Cross-Viewによるインスタンス分割と3次元境界ボックス生成を収束するまで再帰的に行う再帰的パラダイムを提案する。
特に,提案手法では,各2dバウンディングボックスに対してフラスタムを使用し,それに続く再帰的パラダイムにより,最終的に完全指向の3dボックスと対応するクラスとスコアを生成する。
なお、クラスとスコアは2D検出器によって与えられる。
SUN RGB-D と KITTI のデータセットから推定した手法は,既存の画像ベース手法よりも優れている。
新しいタスクに迅速に利用できることを正当化するため、3次元人間の検出と3次元手検出という2つの実世界のシナリオで実装する。
その結果、2つの新しい3dアノテートデータセットが得られ、rcvは(セミ)自動3dアノテータとして見ることができる。
さらに,ライブRGB-Dストリーム上で7fpsで検出できる深度センサにRCVを配置する。
RCVは、3Dラベルを使わずに完全な3Dボックスを生成する最初の3D検出方法である。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。
KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。
我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文 参考訳(メタデータ) (2020-11-19T17:23:30Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。