論文の概要: VSRD++: Autolabeling for 3D Object Detection via Instance-Aware Volumetric Silhouette Rendering
- arxiv url: http://arxiv.org/abs/2512.01178v1
- Date: Mon, 01 Dec 2025 01:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.625443
- Title: VSRD++: Autolabeling for 3D Object Detection via Instance-Aware Volumetric Silhouette Rendering
- Title(参考訳): VSRD++:インスタンス対応ボリュームシルエットレンダリングによる3Dオブジェクト検出の自動化
- Authors: Zihua Liu, Hiroki Sakuma, Masatoshi Okutomi,
- Abstract要約: VSRD++はモノクル3Dオブジェクト検出のための弱い教師付きフレームワークである。
3Dアノテーションへの依存を排除し、ニューラルフィールドベースのボリュームレンダリングを活用する。
モノクロ3Dオブジェクト検出フェーズでは、最適化された3Dバウンディングボックスが擬似ラベルとして機能する。
- 参考スコア(独自算出の注目度): 18.77072205559739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D object detection is a fundamental yet challenging task in 3D scene understanding. Existing approaches heavily depend on supervised learning with extensive 3D annotations, which are often acquired from LiDAR point clouds through labor-intensive labeling processes. To tackle this problem, we propose VSRD++, a novel weakly supervised framework for monocular 3D object detection that eliminates the reliance on 3D annotations and leverages neural-field-based volumetric rendering with weak 2D supervision. VSRD++ consists of a two-stage pipeline: multi-view 3D autolabeling and subsequent monocular 3D detector training. In the multi-view autolabeling stage, object surfaces are represented as signed distance fields (SDFs) and rendered as instance masks via the proposed instance-aware volumetric silhouette rendering. To optimize 3D bounding boxes, we decompose each instance's SDF into a cuboid SDF and a residual distance field (RDF) that captures deviations from the cuboid. To address the geometry inconsistency commonly observed in volume rendering methods applied to dynamic objects, we model the dynamic objects by including velocity into bounding box attributes as well as assigning confidence to each pseudo-label. Moreover, we also employ a 3D attribute initialization module to initialize the dynamic bounding box parameters. In the monocular 3D object detection phase, the optimized 3D bounding boxes serve as pseudo labels for training monocular 3D object detectors. Extensive experiments on the KITTI-360 dataset demonstrate that VSRD++ significantly outperforms existing weakly supervised approaches for monocular 3D object detection on both static and dynamic scenes. Code is available at https://github.com/Magicboomliu/VSRD_plus_plus
- Abstract(参考訳): モノクロ3Dオブジェクト検出は3Dシーン理解の基本的な課題である。
既存のアプローチは、労働集約的なラベリングプロセスを通じてLiDARポイントクラウドから取得される、広範囲な3Dアノテーションによる教師あり学習に大きく依存している。
この問題に対処するため、我々は、モノクル3Dオブジェクト検出のための新しい弱教師付きフレームワークであるVSRD++を提案し、3Dアノテーションへの依存を排除し、弱い2Dインスペクションでニューラルネットワークベースのボリュームレンダリングを活用する。
VSRD++は2段階のパイプラインで構成されている。
多視点自動ラベリング段階では、オブジェクト表面は符号付き距離場(SDF)として表現され、提案したインスタンス対応ボリュームシルエットレンダリングを介してインスタンスマスクとして描画される。
3次元境界ボックスを最適化するために、各インスタンスの SDF を立方体 SDF と剰余距離場 (RDF) に分解し、立方体からの偏差を捉える。
動的オブジェクトに適用されたボリュームレンダリング法でよく見られる幾何学的不整合に対処するために,各擬似ラベルに信頼性を割り当てるだけでなく,バウンディングボックス属性に速度を含めることで動的オブジェクトをモデル化する。
さらに,動的バウンディングボックスパラメータを初期化するために,3D属性の初期化モジュールも使用する。
モノクロ3Dオブジェクト検出フェーズでは、最適化された3Dバウンディングボックスが、モノクロ3Dオブジェクト検出器をトレーニングするための擬似ラベルとして機能する。
KITTI-360データセットの大規模な実験により、VSRD++は静的シーンと動的シーンの両方でモノクロ3Dオブジェクト検出において、既存の弱教師付きアプローチよりも大幅に優れていることが示された。
コードはhttps://github.com/Magicboomliu/VSRD_plus_plusで入手できる。
関連論文リスト
- Sparse Multiview Open-Vocabulary 3D Detection [27.57172918603858]
3Dオブジェクト検出は伝統的に、固定されたカテゴリのセットを検出するトレーニングによって解決されてきた。
本研究では,オープンボキャブラリによる3次元物体検出の課題について検討する。
我々のアプローチは、計算コストのかかる3D特徴フュージョンを使わずに、事前訓練されたオフザシェルフ2Dファンデーションモデルに頼っている。
論文 参考訳(メタデータ) (2025-09-19T12:22:24Z) - 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [62.57179069154312]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - PLOT: Pseudo-Labeling via Video Object Tracking for Scalable Monocular 3D Object Detection [35.524943073010675]
モノクロ3Dオブジェクト検出(M3OD)は、高アノテーションコストと固有の2Dから3Dの曖昧さに起因するデータの不足により、長年にわたって課題に直面してきた。
ビデオデータのみを使用し、マルチビュー設定、追加センサー、カメラポーズ、ドメイン固有のトレーニングを必要とせず、より堅牢な疑似ラベルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T07:46:39Z) - SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts [13.349110509879312]
スパース制御された3Dオブジェクト検出は注目され、完全に教師された3Dオブジェクト・オブジェクタに近い性能を実現している。
本研究では,スパースアノテーション設定下での頑健な特徴識別機能を備えた3D検出器の強化を目的とした,SP3Dと呼ばれるブースティング戦略を提案する。
実験により、SP3Dはわずかに観察された検出器の性能を、平均的なラベル付け条件下で大きなマージンで向上させることができることが確認された。
論文 参考訳(メタデータ) (2025-03-09T06:08:04Z) - V-MIND: Building Versatile Monocular Indoor 3D Detector with Diverse 2D Annotations [17.49394091283978]
V-MIND(Versatile Monocular Indoor Detector)は,室内3D検出器の性能を向上させる。
大規模2次元画像を3次元点雲に変換し,その後に擬似3次元境界ボックスを導出することにより,3次元学習データを生成する。
V-MINDはOmni3D屋内データセット上の幅広いクラスにわたる最先端のオブジェクト検出性能を実現する。
論文 参考訳(メタデータ) (2024-12-16T03:28:00Z) - Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - VSRD: Instance-Aware Volumetric Silhouette Rendering for Weakly Supervised 3D Object Detection [11.061100776969383]
モノクロ3Dオブジェクト検出は3Dシーン理解において重要な課題となる。
既存の手法は、豊富な3Dラベルを用いた教師あり学習に大きく依存している。
本稿では,VSRDという3次元オブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-29T20:43:55Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - OA-DET3D: Embedding Object Awareness as a General Plug-in for Multi-Camera 3D Object Detection [77.43427778037203]
我々は3Dオブジェクト検出を改善するプラグインモジュールであるOA-DET3Dを紹介する。
OA-DET3Dは、オブジェクト中心の深度情報と前景の擬似点を活用することにより、オブジェクトの表現を高める。
我々は、OA-DET3Dの有効性を検証するために、nuScenesデータセットとArgoverse 2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。