論文の概要: VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object Detection
- arxiv url: http://arxiv.org/abs/2404.00149v1
- Date: Fri, 29 Mar 2024 20:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 07:07:01.801342
- Title: VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object Detection
- Title(参考訳): VSRD: 弱教師付き3Dオブジェクト検出のためのインスタンス対応ボリュームシルエットレンダリング
- Authors: Zihua Liu, Hiroki Sakuma, Masatoshi Okutomi,
- Abstract要約: モノクロ3Dオブジェクト検出は3Dシーン理解において重要な課題となる。
既存の手法は、豊富な3Dラベルを用いた教師あり学習に大きく依存している。
本稿では,VSRDという3次元オブジェクト検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.061100776969383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection poses a significant challenge in 3D scene understanding due to its inherently ill-posed nature in monocular depth estimation. Existing methods heavily rely on supervised learning using abundant 3D labels, typically obtained through expensive and labor-intensive annotation on LiDAR point clouds. To tackle this problem, we propose a novel weakly supervised 3D object detection framework named VSRD (Volumetric Silhouette Rendering for Detection) to train 3D object detectors without any 3D supervision but only weak 2D supervision. VSRD consists of multi-view 3D auto-labeling and subsequent training of monocular 3D object detectors using the pseudo labels generated in the auto-labeling stage. In the auto-labeling stage, we represent the surface of each instance as a signed distance field (SDF) and render its silhouette as an instance mask through our proposed instance-aware volumetric silhouette rendering. To directly optimize the 3D bounding boxes through rendering, we decompose the SDF of each instance into the SDF of a cuboid and the residual distance field (RDF) that represents the residual from the cuboid. This mechanism enables us to optimize the 3D bounding boxes in an end-to-end manner by comparing the rendered instance masks with the ground truth instance masks. The optimized 3D bounding boxes serve as effective training data for 3D object detection. We conduct extensive experiments on the KITTI-360 dataset, demonstrating that our method outperforms the existing weakly supervised 3D object detection methods. The code is available at https://github.com/skmhrk1209/VSRD.
- Abstract(参考訳): モノクラー3次元物体検出は、モノクラー深度推定における本質的に不適切な性質のため、3Dシーン理解において重要な課題となる。
既存の方法は、LiDARポイントクラウド上の高価な、労働集約的なアノテーションを通じて得られる、豊富な3Dラベルを用いた教師あり学習に大きく依存している。
そこで本研究では,VSRD(Volumetric Silhouette Rendering for Detection)と呼ばれる3次元オブジェクト検出フレームワークを提案する。
VSRDは、マルチビュー3Dオートラベルと、その後のオートラベル段階で生成された擬似ラベルを用いた単分子3Dオブジェクト検出器のトレーニングで構成されている。
自動ラベル付けの段階では、各インスタンスの表面を符号付き距離場(SDF)として表現し、そのシルエットをインスタンス対応ボリュームシルエットレンダリングによりインスタンスマスクとして描画する。
レンダリングにより3次元境界ボックスを直接最適化するため、各インスタンスの SDF を立方体の SDF と立方体の残差を表す残差距離場 (RDF) に分解する。
この機構により、レンダリングされたインスタンスマスクと地上の真理のインスタンスマスクを比較することで、エンドツーエンドで3D境界ボックスを最適化することができる。
最適化された3Dバウンディングボックスは、3Dオブジェクト検出のための効果的なトレーニングデータとして機能する。
我々は、KITTI-360データセット上で広範囲に実験を行い、既存の弱教師付き3次元物体検出法よりも優れていることを示す。
コードはhttps://github.com/skmhrk1209/VSRDで公開されている。
関連論文リスト
- V-MIND: Building Versatile Monocular Indoor 3D Detector with Diverse 2D Annotations [17.49394091283978]
V-MIND(Versatile Monocular Indoor Detector)は,室内3D検出器の性能を向上させる。
大規模2次元画像を3次元点雲に変換し,その後に擬似3次元境界ボックスを導出することにより,3次元学習データを生成する。
V-MINDはOmni3D屋内データセット上の幅広いクラスにわたる最先端のオブジェクト検出性能を実現する。
論文 参考訳(メタデータ) (2024-12-16T03:28:00Z) - Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Back to Reality: Weakly-supervised 3D Object Detection with Shape-guided
Label Enhancement [93.77156425817178]
本研究では,3次元物体検出のための弱教師付きアプローチを提案する。
我々の手法、すなわちBack to Reality (BR)は、弱いラベルを完全な注釈付き仮想シーンに変換するために合成された3D形状を利用する。
ラベル付け作業の5%未満で、広く使用されているScanNetデータセットに対して、一般的なフル教師付きアプローチを用いて、同等な検出性能を達成する。
論文 参考訳(メタデータ) (2022-03-10T08:51:32Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - Learning Monocular 3D Vehicle Detection without 3D Bounding Box Labels [0.09558392439655011]
3Dオブジェクト検出器のトレーニングには、3Dバウンディングボックスラベルを持つデータセットが必要である。
本稿では,3次元境界ボックスラベルを使わずにモノラルな3次元物体検出を学習するためのネットワークアーキテクチャとトレーニング手順を提案する。
提案アルゴリズムを実世界のKITTIデータセット上で評価し,トレーニングに3Dバウンディングボックスラベルを必要とする最先端の手法と比較して有望な性能を実現する。
論文 参考訳(メタデータ) (2020-10-07T16:24:46Z) - Weakly Supervised 3D Object Detection from Point Clouds [27.70180601788613]
3Dオブジェクト検出は、特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。
既存の3Dオブジェクト検出器は、トレーニング中にアノテーション付き3Dバウンディングボックスに依存している。
基礎となる真理3D境界ボックスを使わずに点雲からの3Dオブジェクト検出を弱教師付きで行うためのフレームワークであるVS3Dを提案する。
論文 参考訳(メタデータ) (2020-07-28T03:30:11Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。