論文の概要: Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving
- arxiv url: http://arxiv.org/abs/2305.15765v1
- Date: Thu, 25 May 2023 06:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:54:02.447059
- Title: Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving
- Title(参考訳): 自律運転のためのポイントクラウドにおける言語誘導型3次元物体検出
- Authors: Wenhao Cheng, Junbo Yin, Wei Li, Ruigang Yang and Jianbing Shen
- Abstract要約: 我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
- 参考スコア(独自算出の注目度): 91.91552963872596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of 3D referring expression comprehension
(REC) in autonomous driving scenario, which aims to ground a natural language
to the targeted region in LiDAR point clouds. Previous approaches for REC
usually focus on the 2D or 3D-indoor domain, which is not suitable for
accurately predicting the location of the queried 3D region in an autonomous
driving scene. In addition, the upper-bound limitation and the heavy
computation cost motivate us to explore a better solution. In this work, we
propose a new multi-modal visual grounding task, termed LiDAR Grounding. Then
we devise a Multi-modal Single Shot Grounding (MSSG) approach with an effective
token fusion strategy. It jointly learns the LiDAR-based object detector with
the language features and predicts the targeted region directly from the
detector without any post-processing. Moreover, the image feature can be
flexibly integrated into our approach to provide rich texture and color
information. The cross-modal learning enforces the detector to concentrate on
important regions in the point cloud by considering the informative language
expressions, thus leading to much better accuracy and efficiency. Extensive
experiments on the Talk2Car dataset demonstrate the effectiveness of the
proposed methods. Our work offers a deeper insight into the LiDAR-based
grounding task and we expect it presents a promising direction for the
autonomous driving community.
- Abstract(参考訳): 本稿では,LiDAR点雲のターゲット領域に自然言語を基盤として,自律運転シナリオにおける3D参照表現理解(REC)の問題に対処する。
従来のRECのアプローチは、通常2Dまたは3D屋内ドメインにフォーカスするが、これは自律運転シーンにおけるクエリされた3D領域の位置を正確に予測するのに適していない。
さらに、上限の上限と重い計算コストは、より良いソリューションを探求する動機付けとなります。
本研究では,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドリングタスクを提案する。
次に,効果的なトークン融合戦略を用いたマルチモーダル単一ショットグラウンド(MSSG)アプローチを提案する。
言語特徴を持つLiDARベースのオブジェクト検出器を共同で学習し、後処理なしで検出対象領域を直接予測する。
さらに,画像特徴を柔軟に統合することで,テクスチャや色彩情報を充実させることができる。
クロスモーダル学習は、情報的言語表現を考慮し、検出者がポイントクラウドの重要な領域に集中するように強制するので、精度と効率が大幅に向上する。
Talk2Carデータセットの大規模な実験により,提案手法の有効性が示された。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
関連論文リスト
- Open 3D World in Autonomous Driving [6.876824330759794]
本稿では,LIDARセンサから取得した3Dポイントクラウドデータをテキスト情報と統合する手法を提案する。
本稿では,鳥眼ビュー (BEV) 領域の特徴とテキスト特徴を融合するための効率的な枠組みを提案する。
提案手法の有効性は,新たに導入されたNuScenes-Tデータセット上での広範囲な実験を通じて明確に評価されている。
論文 参考訳(メタデータ) (2024-08-20T14:10:44Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - ODM3D: Alleviating Foreground Sparsity for Semi-Supervised Monocular 3D
Object Detection [15.204935788297226]
ODM3Dフレームワークは、トレーニング中にLiDARドメインの知識を単分子検出器に注入するために、様々なレベルでのクロスモーダルな知識蒸留を必要とする。
既存手法の準最適トレーニングの主要因として,前景の空間空間を同定することにより,LiDAR点に埋め込まれた正確な位置化情報を活用する。
KITTI検証とテストベンチマークの両方で1位にランクインし、教師付きまたは半教師付きである既存のモノクラー手法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-10-28T07:12:09Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - PillarGrid: Deep Learning-based Cooperative Perception for 3D Object
Detection from Onboard-Roadside LiDAR [15.195933965761645]
我々は,複数の3次元LiDARからの情報を融合した新しい協調認識手法であるtextitPillarGridを提案する。
PillarGrid は,1) 点雲の協調前処理,2) 軸方向のボキセル化と特徴抽出,3) 複数のセンサからの特徴のグリッド方向の深層融合,4) 畳み込みニューラルネットワーク(CNN) に基づく3Dオブジェクト検出である。
広汎な実験により、PillarGridはSOTA単一LiDARに基づく3Dオブジェクト検出法よりも精度と範囲を大きなマージンで上回ることがわかった。
論文 参考訳(メタデータ) (2022-03-12T02:28:41Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z) - SegVoxelNet: Exploring Semantic Context and Depth-aware Features for 3D
Vehicle Detection from Point Cloud [39.99118618229583]
上記の2つの問題に対処する統合モデルSegVoxelNetを提案する。
鳥の視線における自由電荷セマンティックセグメンテーションマスクを活用するために,セマンティックコンテクストエンコーダを提案する。
分布差を明示的にモデル化する新規な深度認識ヘッドを設計し、深度認識ヘッドの各部分を目標検出範囲に集中させる。
論文 参考訳(メタデータ) (2020-02-13T02:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。