Fugu-MT 論文翻訳(概要): OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object Detection

論文の概要: OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object Detection

arxiv url: http://arxiv.org/abs/2312.08876v1
Date: Tue, 12 Dec 2023 07:49:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 22:23:19.882035
Title: OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object Detection
Title（参考訳）: OpenSight: LiDARベースのオブジェクト検出のためのシンプルなオープン語彙フレームワーク
Authors: Hu Zhang, Jianhua Xu, Tao Tang, Haiyang Sun, Xin Yu, Zi Huang, Kaicheng Yu
Abstract要約: OpenSightは、LiDARベースのオープン語彙検出のためのより高度な2D-3Dモデリングフレームワークである。提案手法は,広く使用されている3次元検出ベンチマークにおいて,最先端のオープン語彙性能を確立する。
参考スコア（独自算出の注目度）: 41.24059083441953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional LiDAR-based object detection research primarily focuses on closed-set scenarios, which falls short in complex real-world applications. Directly transferring existing 2D open-vocabulary models with some known LiDAR classes for open-vocabulary ability, however, tends to suffer from over-fitting problems: The obtained model will detect the known objects, even presented with a novel category. In this paper, we propose OpenSight, a more advanced 2D-3D modeling framework for LiDAR-based open-vocabulary detection. OpenSight utilizes 2D-3D geometric priors for the initial discernment and localization of generic objects, followed by a more specific semantic interpretation of the detected objects. The process begins by generating 2D boxes for generic objects from the accompanying camera images of LiDAR. These 2D boxes, together with LiDAR points, are then lifted back into the LiDAR space to estimate corresponding 3D boxes. For better generic object perception, our framework integrates both temporal and spatial-aware constraints. Temporal awareness correlates the predicted 3D boxes across consecutive timestamps, recalibrating the missed or inaccurate boxes. The spatial awareness randomly places some ``precisely'' estimated 3D boxes at varying distances, increasing the visibility of generic objects. To interpret the specific semantics of detected objects, we develop a cross-modal alignment and fusion module to first align 3D features with 2D image embeddings and then fuse the aligned 3D-2D features for semantic decoding. Our experiments indicate that our method establishes state-of-the-art open-vocabulary performance on widely used 3D detection benchmarks and effectively identifies objects for new categories of interest.
Abstract（参考訳）: 従来のlidarベースのオブジェクト検出研究は主にクローズドセットのシナリオに焦点を当てている。しかし、いくつかの既知のLiDARクラスを持つ既存の2Dオープン語彙モデルを直接転送することは、過度に適合する問題に悩まされる傾向がある。本稿では,より高度な2D-3DモデリングフレームワークであるOpenSightを提案する。 opensightは2d-3d幾何プリミティブを使用して、ジェネリックオブジェクトの初期識別とローカライズを行い、さらに検出されたオブジェクトのより具体的な意味解釈を行う。このプロセスはLiDARのカメラ画像からジェネリックオブジェクトのための2Dボックスを生成することから始まる。これらの2DボックスとLiDARポイントは、LiDAR空間に持ち帰り、対応する3Dボックスを推定する。汎用的なオブジェクト知覚を改善するため、我々のフレームワークは時間的制約と空間的制約の両方を統合する。時間的認識は、予測された3dボックスを連続するタイムスタンプに関連付け、欠落または不正確なボックスを再調整する。空間認識は、推定された3dボックスを様々な距離にランダムに配置し、汎用オブジェクトの可視性を高める。検出対象の特定の意味を解釈するために,まず3次元特徴を2次元画像埋め込みでアライメントし,次にアライメントされた3D-2D特徴を融合してセマンティックデコーディングを行う。提案手法は,広く使用されている3次元検出ベンチマークにおいて,最先端のオープンボキャブラリ性能を確立し,新しいカテゴリのオブジェクトを効果的に同定する。

関連論文リスト

3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文参考訳（メタデータ） (2025-07-31T13:56:41Z)
OV-SCAN: Semantically Consistent Alignment for Novel Object Discovery in Open-Vocabulary 3D Object Detection [6.449894994514711]
OV-SCANはオープンVocabulary 3Dフレームワークで、新規オブジェクト発見のためにセマンティック一貫性アライメントを強制する。 OV-SCANは、正確な3Dアノテーションを発見し、低品質または劣化したアライメントペアをフィルタリングする2つの中核戦略を採用している。
論文参考訳（メタデータ） (2025-03-09T04:22:08Z)
Open Vocabulary Monocular 3D Object Detection [10.424711580213616]
RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
論文参考訳（メタデータ） (2024-11-25T18:59:17Z)
Training an Open-Vocabulary Monocular 3D Object Detection Model without 3D Data [57.53523870705433]
我々はOVM3D-Detと呼ばれる新しいオープン語彙単分子オブジェクト検出フレームワークを提案する。 OVM3D-Detは、入力または3Dバウンディングボックスを生成するために高精度のLiDARや3Dセンサーデータを必要としない。オープンボキャブラリ2Dモデルと擬似LiDARを使用して、RGB画像に3Dオブジェクトを自動的にラベル付けし、オープンボキャブラリ単分子3D検出器の学習を促進する。
論文参考訳（メタデータ） (2024-11-23T21:37:21Z)
General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。 KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文参考訳（メタデータ） (2024-07-18T17:52:08Z)
Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection [34.91703960513125]
CoDAv2は、新しい3Dオブジェクトのローカライズと分類の両方に取り組むために設計された統一フレームワークである。 CoDAv2は、高いマージンで最高のパフォーマンスの方法より優れている。ソースコードと事前トレーニングされたモデルはGitHubプロジェクトページで公開されている。
論文参考訳（メタデータ） (2024-06-02T18:32:37Z)
OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。コードと事前訓練されたモデルは、後にリリースされる。
論文参考訳（メタデータ） (2024-03-28T17:05:04Z)
Improving Distant 3D Object Detection Using 2D Box Supervision [97.80225758259147]
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
論文参考訳（メタデータ） (2024-03-14T09:54:31Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。