論文の概要: OpenM3D: Open Vocabulary Multi-view Indoor 3D Object Detection without Human Annotations
- arxiv url: http://arxiv.org/abs/2508.20063v1
- Date: Wed, 27 Aug 2025 17:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.718417
- Title: OpenM3D: Open Vocabulary Multi-view Indoor 3D Object Detection without Human Annotations
- Title(参考訳): OpenM3D: 人間のアノテーションを使わずに、オープンボキャブラリによる屋内3Dオブジェクト検出
- Authors: Peng-Hao Hsu, Ke Zhang, Fu-En Wang, Tao Tu, Ming-Feng Li, Yu-Lun Liu, Albert Y. C. Chen, Min Sun, Cheng-Hao Kuo,
- Abstract要約: オープンな多視点屋内3Dオブジェクト検出器OpenM3Dを導入する。
OpenM3Dは、ImGeoNetモデルからの2D誘起のボクセル特性に適応した単段検出器である。
推論では、高効率な検出器であるOpenM3Dは入力にマルチビュー画像しか必要とせず、精度と速度が優れている。
- 参考スコア(独自算出の注目度): 21.24895455233531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary (OV) 3D object detection is an emerging field, yet its exploration through image-based methods remains limited compared to 3D point cloud-based methods. We introduce OpenM3D, a novel open-vocabulary multi-view indoor 3D object detector trained without human annotations. In particular, OpenM3D is a single-stage detector adapting the 2D-induced voxel features from the ImGeoNet model. To support OV, it is jointly trained with a class-agnostic 3D localization loss requiring high-quality 3D pseudo boxes and a voxel-semantic alignment loss requiring diverse pre-trained CLIP features. We follow the training setting of OV-3DET where posed RGB-D images are given but no human annotations of 3D boxes or classes are available. We propose a 3D Pseudo Box Generation method using a graph embedding technique that combines 2D segments into coherent 3D structures. Our pseudo-boxes achieve higher precision and recall than other methods, including the method proposed in OV-3DET. We further sample diverse CLIP features from 2D segments associated with each coherent 3D structure to align with the corresponding voxel feature. The key to training a highly accurate single-stage detector requires both losses to be learned toward high-quality targets. At inference, OpenM3D, a highly efficient detector, requires only multi-view images for input and demonstrates superior accuracy and speed (0.3 sec. per scene) on ScanNet200 and ARKitScenes indoor benchmarks compared to existing methods. We outperform a strong two-stage method that leverages our class-agnostic detector with a ViT CLIP-based OV classifier and a baseline incorporating multi-view depth estimator on both accuracy and speed.
- Abstract(参考訳): Open-vocabulary (OV) 3Dオブジェクト検出は新たな分野である。
オープンな多視点屋内3Dオブジェクト検出器OpenM3Dを導入する。
特に、OpenM3DはImGeoNetモデルからの2D誘起のボクセル特性に適応する単一ステージ検出器である。
OVをサポートするために、高品質な3D擬似箱を必要とするクラス非依存の3Dローカライゼーション損失と、多様なCLIP機能を必要とするボクセル・セマンティックアライメント損失を共同で訓練する。
我々は,提案したRGB-D画像が付与されるOV-3DETのトレーニング設定に従うが,3Dボックスやクラスに対する人間のアノテーションは利用できない。
本稿では,2次元セグメントをコヒーレントな3次元構造に結合したグラフ埋め込み手法を用いた3次元擬似ボックス生成法を提案する。
擬似箱は,OV-3DETで提案した手法を含め,他の手法よりも高精度かつ高精度なリコールを実現する。
さらに,各コヒーレント3次元構造に関連付けられた2次元セグメントから多種多様なCLIP特徴を抽出し,対応するボクセル特徴と整合する。
高精度な単一ステージ検出器を訓練する鍵は、両方の損失を高品質な目標に向けて学習することである。
推論では、高効率な検出器であるOpenM3Dは入力にマルチビュー画像しか必要とせず、ScanNet200やARKitScenesの屋内ベンチマークにおいて既存の手法と比較して精度と速度(シーン毎0.3秒)が優れている。
我々は,VT CLIPをベースとしたOV分類器と,精度と速度の両面に多視点深度推定器を組み込んだベースラインを用いて,クラスに依存しない検出器を利用する強力な2段階法より優れていた。
関連論文リスト
- 3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。
私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。
対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文 参考訳(メタデータ) (2025-07-31T13:56:41Z) - ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z) - DSGN: Deep Stereo Geometry Network for 3D Object Detection [79.16397166985706]
画像ベースとLiDARベースの3Dオブジェクト検出器の間には大きなパフォーマンスギャップがある。
我々の手法であるDeep Stereo Geometry Network (DSGN)は,このギャップを著しく低減する。
初めて、シンプルで効果的な1段ステレオベースの3D検出パイプラインを提供する。
論文 参考訳(メタデータ) (2020-01-10T11:44:37Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。