Fugu-MT 論文翻訳(概要): Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data

論文の概要: Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data

arxiv url: http://arxiv.org/abs/2411.15657v1
Date: Sat, 23 Nov 2024 21:37:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.51099
Title: Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data
Title（参考訳）: 3次元データのないオープンボキャブラリ単分子物体検出モデルの訓練
Authors: Rui Huang, Henry Zheng, Yan Wang, Zhuofan Xia, Marco Pavone, Gao Huang,
Abstract要約: 我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。 OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
参考スコア（独自算出の注目度）: 57.53523870705433
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-vocabulary 3D object detection has recently attracted considerable attention due to its broad applications in autonomous driving and robotics, which aims to effectively recognize novel classes in previously unseen domains. However, existing point cloud-based open-vocabulary 3D detection models are limited by their high deployment costs. In this work, we propose a novel open-vocabulary monocular 3D object detection framework, dubbed OVM3D-Det, which trains detectors using only RGB images, making it both cost-effective and scalable to publicly available data. Unlike traditional methods, OVM3D-Det does not require high-precision LiDAR or 3D sensor data for either input or generating 3D bounding boxes. Instead, it employs open-vocabulary 2D models and pseudo-LiDAR to automatically label 3D objects in RGB images, fostering the learning of open-vocabulary monocular 3D detectors. However, training 3D models with labels directly derived from pseudo-LiDAR is inadequate due to imprecise boxes estimated from noisy point clouds and severely occluded objects. To address these issues, we introduce two innovative designs: adaptive pseudo-LiDAR erosion and bounding box refinement with prior knowledge from large language models. These techniques effectively calibrate the 3D labels and enable RGB-only training for 3D detectors. Extensive experiments demonstrate the superiority of OVM3D-Det over baselines in both indoor and outdoor scenarios. The code will be released.
Abstract（参考訳）: オープンボキャブラリ3Dオブジェクト検出は、これまで見つからなかった領域において、新しいクラスを効果的に認識することを目的とした、自律運転とロボット工学の幅広い応用により、最近大きな注目を集めている。しかし、既存のポイントクラウドベースのオープンな3D検出モデルは、高いデプロイメントコストによって制限されている。本研究では,RGB画像のみを用いて検出器を訓練し,費用対効果と拡張性を両立させる,OVM3D-Detと呼ばれる新しいオープンボキャブラリモノクロ3Dオブジェクト検出フレームワークを提案する。従来の方法とは異なり、OVM3D-Detは入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。その代わりに、オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGBイメージ内の3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリモノクロ3D検出器の学習を促進する。しかし, ノイズの多い点雲から推定される不正確なボックスや, 厳密な隠蔽物体により, 擬似LiDARから直接のラベルを用いた3Dモデルの訓練は不十分である。これらの問題に対処するために,適応型擬似LiDAR浸食と,大規模言語モデルからの事前知識による境界ボックス改良という2つの革新的な設計を導入する。これらの技術は、3Dラベルを効果的に校正し、3D検出器のRGBのみのトレーニングを可能にする。大規模な実験は、OVM3D-Detが屋内および屋外の両方のシナリオにおいてベースラインよりも優れていることを示した。コードはリリースされます。

関連論文リスト

3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文参考訳（メタデータ） (2025-07-31T13:56:41Z)
Just Add Geometry: Gradient-Free Open-Vocabulary 3D Detection Without Human-in-the-Loop [0.0]
Webスケールのイメージテキストペアでトレーニングされた2次元視覚言語モデルは、リッチなセマンティック理解を示し、オープン語彙検出をサポートする。我々は,2次元基礎モデルの成熟度とカテゴリの多様性を利用して,人間に注釈を付けた3次元ラベルを使わずに3次元オブジェクト検出を行う。この結果は,スケーラブルな3D知覚のための2次元基礎モデルの未完成の可能性を強調した。
論文参考訳（メタデータ） (2025-07-06T15:00:13Z)
Weak Cube R-CNN: Weakly Supervised 3D Detection using only 2D Bounding Boxes [5.492174268132387]
3Dオブジェクト検出器は通常、完全に教師された方法で訓練され、3Dラベル付きデータに大きく依存する。この研究は、モノクラー法によるデータ要求を減らすために、弱教師付き3D検出に焦点を当てている。本稿では,3次元の物体を推定時に予測できる一般モデルWeak Cube R-CNNを提案する。
論文参考訳（メタデータ） (2025-04-17T19:13:42Z)
V-MIND: Building Versatile Monocular Indoor 3D Detector with Diverse 2D Annotations [17.49394091283978]
V-MIND(Versatile Monocular Indoor Detector)は,室内3D検出器の性能を向上させる。大規模2次元画像を3次元点雲に変換し,その後に擬似3次元境界ボックスを導出することにより,3次元学習データを生成する。 V-MINDはOmni3D屋内データセット上の幅広いクラスにわたる最先端のオブジェクト検出性能を実現する。
論文参考訳（メタデータ） (2024-12-16T03:28:00Z)
STONE: A Submodular Optimization Framework for Active 3D Object Detection [20.54906045954377]
正確な3Dオブジェクト検出器をトレーニングするための鍵となる要件は、大量のLiDARベースのポイントクラウドデータが利用できることである。本稿では,3次元物体検出装置のトレーニングにおけるラベル付けコストを大幅に削減する,統合されたアクティブな3次元物体検出フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-04T20:45:33Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。コードと事前訓練されたモデルは、後にリリースされる。
論文参考訳（メタデータ） (2024-03-28T17:05:04Z)
Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文参考訳（メタデータ） (2023-12-12T18:57:25Z)
OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object Detection [41.24059083441953]
OpenSightは、LiDARベースのオープン語彙検出のためのより高度な2D-3Dモデリングフレームワークである。提案手法は,広く使用されている3次元検出ベンチマークにおいて,最先端のオープン語彙性能を確立する。
論文参考訳（メタデータ） (2023-12-12T07:49:30Z)
FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。 2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文参考訳（メタデータ） (2021-05-17T07:29:55Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)
Learning to Predict the 3D Layout of a Scene [0.3867363075280544]
本稿では,単一のRGB画像のみを使用する手法を提案し,LiDARセンサを持たないデバイスや車両に適用できるようにする。 KITTIデータセットは,クラスラベル付き道路交通シーン,2D境界ボックス,自由度7自由度3Dアノテーションで構成される。我々は、公式のKITTIベンチマークで要求されるように、結合閾値70%の3次元交差で測定された適度に困難なデータに対して平均47.3%の平均精度を達成し、従来の最先端のRGBのみの手法よりも大きなマージンで上回った。
論文参考訳（メタデータ） (2020-11-19T17:23:30Z)
Weakly Supervised 3D Object Detection from Point Clouds [27.70180601788613]
3Dオブジェクト検出は、特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。既存の3Dオブジェクト検出器は、トレーニング中にアノテーション付き3Dバウンディングボックスに依存している。基礎となる真理3D境界ボックスを使わずに点雲からの3Dオブジェクト検出を弱教師付きで行うためのフレームワークであるVS3Dを提案する。
論文参考訳（メタデータ） (2020-07-28T03:30:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。