論文の概要: Open Vocabulary Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2411.16833v1
- Date: Mon, 25 Nov 2024 18:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:28.679236
- Title: Open Vocabulary Monocular 3D Object Detection
- Title(参考訳): Open Vocabulary Monocular 3D Object Detection
- Authors: Jin Yao, Hao Gu, Xuweiyi Chen, Jiayun Wang, Zezhou Cheng,
- Abstract要約: RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。
オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。
提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
- 参考スコア(独自算出の注目度): 10.424711580213616
- License:
- Abstract: In this work, we pioneer the study of open-vocabulary monocular 3D object detection, a novel task that aims to detect and localize objects in 3D space from a single RGB image without limiting detection to a predefined set of categories. We formalize this problem, establish baseline methods, and introduce a class-agnostic approach that leverages open-vocabulary 2D detectors and lifts 2D bounding boxes into 3D space. Our approach decouples the recognition and localization of objects in 2D from the task of estimating 3D bounding boxes, enabling generalization across unseen categories. Additionally, we propose a target-aware evaluation protocol to address inconsistencies in existing datasets, improving the reliability of model performance assessment. Extensive experiments on the Omni3D dataset demonstrate the effectiveness of the proposed method in zero-shot 3D detection for novel object categories, validating its robust generalization capabilities. Our method and evaluation protocols contribute towards the development of open-vocabulary object detection models that can effectively operate in real-world, category-diverse environments.
- Abstract(参考訳): 本研究では,1つのRGB画像から3次元空間内の物体を検出・ローカライズすることを目的とした,オープンボキャブラリモノクロ3Dオブジェクト検出の先駆的研究を行った。
我々はこの問題を形式化し、ベースライン法を確立し、オープンな2D検出器を活用して2D境界ボックスを3D空間に持ち上げるクラス非依存のアプローチを導入する。
提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
さらに、既存のデータセットの不整合に対処し、モデル性能評価の信頼性を向上させるためのターゲットアウェア評価プロトコルを提案する。
Omni3Dデータセットの大規模な実験は、新しいオブジェクトカテゴリに対するゼロショット3D検出における提案手法の有効性を示し、その堅牢な一般化能力を検証した。
提案手法と評価プロトコルは,実世界,カテゴリ多様性環境において効果的に動作可能なオープン語彙オブジェクト検出モデルの開発に寄与する。
関連論文リスト
- Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。
OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。
オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文 参考訳(メタデータ) (2024-11-23T21:37:21Z) - Open-Set 3D object detection in LiDAR data as an Out-of-Distribution problem [6.131026007721572]
LiDARデータからの3Dオブジェクト検出は,制御環境下での産業対応性能を実現している。
我々は,LiDARデータにおけるオープンセット3Dオブジェクト検出問題を,外部分布(OOD)問題として再定義し,外乱オブジェクトを検出する。
論文 参考訳(メタデータ) (2024-10-31T09:29:55Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - Scalable Vision-Based 3D Object Detection and Monocular Depth Estimation
for Autonomous Driving [5.347428263669927]
この論文は、視覚に基づく3D知覚技術の進歩への多面的な貢献である。
第1節では、この論文はモノクロとステレオの両方のオブジェクト検出アルゴリズムに構造的拡張を導入している。
第2のセグメントは、データ駆動戦略と、3D視覚検出における実世界の応用に特化している。
論文 参考訳(メタデータ) (2024-03-04T13:42:54Z) - OriCon3D: Effective 3D Object Detection using Orientation and Confidence [0.0]
1つの画像から3次元物体を検出するための高度な手法を提案する。
我々は、深層畳み込みニューラルネットワークに基づく3Dオブジェクト重み付け指向回帰パラダイムを用いる。
提案手法は, 3次元オブジェクトのポーズ決定の精度を大幅に向上し, ベースライン法を超越した。
論文 参考訳(メタデータ) (2023-04-27T19:52:47Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Shape-Aware Monocular 3D Object Detection [15.693199934120077]
単分子3次元物体検出モデルを提案する。
この検出は、対象物を取り巻く無関係な領域からの干渉をほとんど避ける。
単分子3次元物体検出モデルに対して,新しい評価基準,すなわち平均深度類似度(ADS)を提案する。
論文 参考訳(メタデータ) (2022-04-19T07:43:56Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。