論文の概要: Open 3D World in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2408.10880v1
- Date: Tue, 20 Aug 2024 14:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 13:25:13.743638
- Title: Open 3D World in Autonomous Driving
- Title(参考訳): 自動運転車のオープン3Dワールド
- Authors: Xinlong Cheng, Lei Li,
- Abstract要約: 本稿では,LIDARセンサから取得した3Dポイントクラウドデータをテキスト情報と統合する手法を提案する。
本稿では,鳥眼ビュー (BEV) 領域の特徴とテキスト特徴を融合するための効率的な枠組みを提案する。
提案手法の有効性は,新たに導入されたNuScenes-Tデータセット上での広範囲な実験を通じて明確に評価されている。
- 参考スコア(独自算出の注目度): 6.876824330759794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capability for open vocabulary perception represents a significant advancement in autonomous driving systems, facilitating the comprehension and interpretation of a wide array of textual inputs in real-time. Despite extensive research in open vocabulary tasks within 2D computer vision, the application of such methodologies to 3D environments, particularly within large-scale outdoor contexts, remains relatively underdeveloped. This paper presents a novel approach that integrates 3D point cloud data, acquired from LIDAR sensors, with textual information. The primary focus is on the utilization of textual data to directly localize and identify objects within the autonomous driving context. We introduce an efficient framework for the fusion of bird's-eye view (BEV) region features with textual features, thereby enabling the system to seamlessly adapt to novel textual inputs and enhancing the robustness of open vocabulary detection tasks. The effectiveness of the proposed methodology is rigorously evaluated through extensive experimentation on the newly introduced NuScenes-T dataset, with additional validation of its zero-shot performance on the Lyft Level 5 dataset. This research makes a substantive contribution to the advancement of autonomous driving technologies by leveraging multimodal data to enhance open vocabulary perception in 3D environments, thereby pushing the boundaries of what is achievable in autonomous navigation and perception.
- Abstract(参考訳): オープン語彙認識能力は、自律運転システムにおいて重要な進歩を示し、リアルタイムに幅広いテキスト入力の理解と解釈を容易にする。
2次元コンピュータビジョン内でのオープンな語彙タスクに関する広範な研究にもかかわらず、このような方法論の大規模屋外環境での3次元環境への応用は、いまだに未発達である。
本稿では,LIDARセンサから取得した3Dポイントクラウドデータをテキスト情報と統合する手法を提案する。
主な焦点は、自律運転コンテキスト内のオブジェクトを直接ローカライズし識別するためのテキストデータの利用である。
本研究では,鳥眼領域の特徴とテキスト的特徴を融合する効率的な枠組みを導入し,新たなテキスト入力にシームレスに適応し,オープンな語彙検出タスクの堅牢性を高める。
提案手法の有効性は,新たに導入されたNuScenes-Tデータセットの広範な実験を通じて厳格に評価されている。
本研究は、3次元環境におけるオープンな語彙知覚を高めるためにマルチモーダルデータを活用することにより、自律走行技術の発展に実質的な貢献をし、自律走行と知覚において達成可能なものの境界を推し進める。
関連論文リスト
- Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking [73.05477052645885]
オープンな語彙的3Dトラッキングを導入し、3Dトラッキングの範囲を広げて、定義済みのカテゴリを超えてオブジェクトを含める。
本稿では,オープン語彙機能を3次元トラッキングフレームワークに統合し,オブジェクトクラスが見えないように一般化する手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T15:48:42Z) - A Comprehensive Review of 3D Object Detection in Autonomous Driving: Technological Advances and Future Directions [11.071271817366739]
3次元物体認識は、自律運転システムの開発において重要な要素となっている。
本稿では,カメラベース,LiDARベース,核融合検出技術を中心に,従来の3次元物体検出手法を概説する。
本稿では、時間知覚、占有グリッド、エンドツーエンド学習フレームワークなどの精度向上手法を含む今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-08-28T01:08:33Z) - Leveraging LLMs for Enhanced Open-Vocabulary 3D Scene Understanding in Autonomous Driving [9.316712964093506]
本稿では,自律運転におけるオープンな3次元シーン理解のための新しい手法を提案する。
本稿では,Large Language Models (LLMs) を用いて,セグメンテーションとシーン解釈のための文脈的に関係のある標準句を生成することを提案する。
この作業は、よりインテリジェントでコンテキスト対応の自動運転システムへの大きな進歩を示している。
論文 参考訳(メタデータ) (2024-08-07T02:54:43Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - 3D Object Visibility Prediction in Autonomous Driving [6.802572869909114]
本稿では,新しい属性とその対応するアルゴリズムである3Dオブジェクトの可視性について述べる。
この属性の提案とその計算戦略は、下流タスクの能力を拡大することを目的としている。
論文 参考訳(メタデータ) (2024-03-06T13:07:42Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。