Fugu-MT 論文翻訳(概要): Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance

論文の概要: Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance

arxiv url: http://arxiv.org/abs/2312.07530v1
Date: Tue, 12 Dec 2023 18:57:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 14:37:46.622048
Title: Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance
Title（参考訳）: 多層視覚誘導による弱めの3次元物体検出
Authors: Kuan-Chih Huang, Yi-Hsuan Tsai, Ming-Hsuan Yang
Abstract要約: 本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
参考スコア（独自算出の注目度）: 81.68608983602581
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weakly supervised 3D object detection aims to learn a 3D detector with lower annotation cost, e.g., 2D labels. Unlike prior work which still relies on few accurate 3D annotations, we propose a framework to study how to leverage constraints between 2D and 3D domains without requiring any 3D labels. Specifically, we employ visual data from three perspectives to establish connections between 2D and 3D domains. First, we design a feature-level constraint to align LiDAR and image features based on object-aware regions. Second, the output-level constraint is developed to enforce the overlap between 2D and projected 3D box estimations. Finally, the training-level constraint is utilized by producing accurate and consistent 3D pseudo-labels that align with the visual data. We conduct extensive experiments on the KITTI dataset to validate the effectiveness of the proposed three constraints. Without using any 3D labels, our method achieves favorable performance against state-of-the-art approaches and is competitive with the method that uses 500-frame 3D annotations. Code and models will be made publicly available at https://github.com/kuanchihhuang/VG-W3D.
Abstract（参考訳）: 弱教師付き3Dオブジェクト検出は、アノテーションコストの低い3D検出器を学習することを目的としている。正確な3Dアノテーションをほとんど依存していない従来の作業とは異なり、我々は3Dラベルを必要とせずに2Dドメインと3Dドメイン間の制約をどのように活用するかを研究するフレームワークを提案する。具体的には、3つの視点から視覚データを用いて2Dドメインと3Dドメインの接続を確立する。まず、LiDARと画像の特徴をオブジェクト認識領域に基づいて調整する特徴レベルの制約を設計する。次に、出力レベル制約を開発し、2dと投影された3dボックス推定の重複を強制する。最後に、トレーニングレベルの制約を利用して、視覚データと整合した正確で一貫性のある3D擬似ラベルを生成する。提案した3つの制約の有効性を検証するため,KITTIデータセットの広範な実験を行った。提案手法は,500フレームの3Dアノテーションを使用する手法と競合し,最先端のアプローチに対して良好な性能を発揮する。コードとモデルはhttps://github.com/kuanchihhuang/VG-W3D.comで公開される。

関連論文リスト

Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。 OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文参考訳（メタデータ） (2024-11-23T21:37:21Z)
ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only [5.699475977818167]
3Dオブジェクト検出は、自動運転車、ロボット工学、拡張現実など、さまざまな応用において重要な役割を果たす。画像から2次元境界ボックスアノテーションにのみ依存する弱教師付き3次元アノテータを提案する。
論文参考訳（メタデータ） (2024-07-24T11:58:31Z)
General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。 KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文参考訳（メタデータ） (2024-07-18T17:52:08Z)
Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文参考訳（メタデータ） (2023-06-08T17:58:45Z)
Towards 3D Object Detection with 2D Supervision [13.444432119639822]
大規模2次元ラベルを用いた視覚的3次元物体検出器の学習を可能にするハイブリッドトレーニングフレームワークを提案する。本稿では3次元予測を時間的2次元ラベルでブリッジする時間的2次元変換を提案する。 nuScenesデータセットで実施された実験は、25%の3Dアノテーションで、強い結果(完全に教師されたパフォーマンスの90%近く)を示した。
論文参考訳（メタデータ） (2022-11-15T16:40:11Z)
Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文参考訳（メタデータ） (2022-04-02T03:48:03Z)
FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。 2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文参考訳（メタデータ） (2021-05-17T07:29:55Z)
RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文参考訳（メタデータ） (2020-01-10T08:29:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。