論文の概要: OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object
Detection
- arxiv url: http://arxiv.org/abs/2312.08876v1
- Date: Tue, 12 Dec 2023 07:49:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:23:19.882035
- Title: OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object
Detection
- Title(参考訳): OpenSight: LiDARベースのオブジェクト検出のためのシンプルなオープン語彙フレームワーク
- Authors: Hu Zhang, Jianhua Xu, Tao Tang, Haiyang Sun, Xin Yu, Zi Huang,
Kaicheng Yu
- Abstract要約: OpenSightは、LiDARベースのオープン語彙検出のためのより高度な2D-3Dモデリングフレームワークである。
提案手法は,広く使用されている3次元検出ベンチマークにおいて,最先端のオープン語彙性能を確立する。
- 参考スコア(独自算出の注目度): 41.24059083441953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional LiDAR-based object detection research primarily focuses on
closed-set scenarios, which falls short in complex real-world applications.
Directly transferring existing 2D open-vocabulary models with some known LiDAR
classes for open-vocabulary ability, however, tends to suffer from over-fitting
problems: The obtained model will detect the known objects, even presented with
a novel category. In this paper, we propose OpenSight, a more advanced 2D-3D
modeling framework for LiDAR-based open-vocabulary detection. OpenSight
utilizes 2D-3D geometric priors for the initial discernment and localization of
generic objects, followed by a more specific semantic interpretation of the
detected objects. The process begins by generating 2D boxes for generic objects
from the accompanying camera images of LiDAR. These 2D boxes, together with
LiDAR points, are then lifted back into the LiDAR space to estimate
corresponding 3D boxes. For better generic object perception, our framework
integrates both temporal and spatial-aware constraints. Temporal awareness
correlates the predicted 3D boxes across consecutive timestamps, recalibrating
the missed or inaccurate boxes. The spatial awareness randomly places some
``precisely'' estimated 3D boxes at varying distances, increasing the
visibility of generic objects. To interpret the specific semantics of detected
objects, we develop a cross-modal alignment and fusion module to first align 3D
features with 2D image embeddings and then fuse the aligned 3D-2D features for
semantic decoding. Our experiments indicate that our method establishes
state-of-the-art open-vocabulary performance on widely used 3D detection
benchmarks and effectively identifies objects for new categories of interest.
- Abstract(参考訳): 従来のlidarベースのオブジェクト検出研究は主にクローズドセットのシナリオに焦点を当てている。
しかし、いくつかの既知のLiDARクラスを持つ既存の2Dオープン語彙モデルを直接転送することは、過度に適合する問題に悩まされる傾向がある。
本稿では,より高度な2D-3DモデリングフレームワークであるOpenSightを提案する。
opensightは2d-3d幾何プリミティブを使用して、ジェネリックオブジェクトの初期識別とローカライズを行い、さらに検出されたオブジェクトのより具体的な意味解釈を行う。
このプロセスはLiDARのカメラ画像からジェネリックオブジェクトのための2Dボックスを生成することから始まる。
これらの2DボックスとLiDARポイントは、LiDAR空間に持ち帰り、対応する3Dボックスを推定する。
汎用的なオブジェクト知覚を改善するため、我々のフレームワークは時間的制約と空間的制約の両方を統合する。
時間的認識は、予測された3dボックスを連続するタイムスタンプに関連付け、欠落または不正確なボックスを再調整する。
空間認識は、推定された3dボックスを様々な距離にランダムに配置し、汎用オブジェクトの可視性を高める。
検出対象の特定の意味を解釈するために,まず3次元特徴を2次元画像埋め込みでアライメントし,次にアライメントされた3D-2D特徴を融合してセマンティックデコーディングを行う。
提案手法は,広く使用されている3次元検出ベンチマークにおいて,最先端のオープンボキャブラリ性能を確立し,新しいカテゴリのオブジェクトを効果的に同定する。
関連論文リスト
- Improving Distant 3D Object Detection Using 2D Box Supervision [97.80225758259147]
遠方の物体の欠損した深さを回復するフレームワークであるLR3Dを提案する。
我々のフレームワークは汎用的であり、3D検出手法を広く活用する可能性がある。
論文 参考訳(メタデータ) (2024-03-14T09:54:31Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [81.68608983602581]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - Object-Aware Centroid Voting for Monocular 3D Object Detection [30.59728753059457]
本研究では, 深度を学習することなく, 終端から終端までトレーニング可能な単分子3次元物体検出器を提案する。
領域的外見の注意と幾何学的射影分布の両面を考慮した,新しいオブジェクト認識型投票手法が導入された。
遅延融合と予測される3D方向と次元により、オブジェクトの3D境界ボックスは単一のRGB画像から検出できる。
論文 参考訳(メタデータ) (2020-07-20T02:11:18Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。