Fugu-MT 論文翻訳(概要): LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving

論文の概要: LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving

arxiv url: http://arxiv.org/abs/2307.08850v2
Date: Mon, 18 Nov 2024 21:51:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.129725
Title: LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving
Title（参考訳）: LiDAR-BEVMTN: リアルタイムLiDAR Bird's-Eye View Multi-Task Perception Network for autonomous Driving
Authors: Sambit Mohapatra, Senthil Yogamani, Varun Ravi Kumar, Stefan Milz, Heinrich Gotzig, Patrick Mäder,
Abstract要約: 本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
参考スコア（独自算出の注目度）: 12.713417063678335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LiDAR is crucial for robust 3D scene perception in autonomous driving. LiDAR perception has the largest body of literature after camera perception. However, multi-task learning across tasks like detection, segmentation, and motion estimation using LiDAR remains relatively unexplored, especially on automotive-grade embedded platforms. We present a real-time multi-task convolutional neural network for LiDAR-based object detection, semantics, and motion segmentation. The unified architecture comprises a shared encoder and task-specific decoders, enabling joint representation learning. We propose a novel Semantic Weighting and Guidance (SWAG) module to transfer semantic features for improved object detection selectively. Our heterogeneous training scheme combines diverse datasets and exploits complementary cues between tasks. The work provides the first embedded implementation unifying these key perception tasks from LiDAR point clouds achieving 3ms latency on the embedded NVIDIA Xavier platform. We achieve state-of-the-art results for two tasks, semantic and motion segmentation, and close to state-of-the-art performance for 3D object detection. By maximizing hardware efficiency and leveraging multi-task synergies, our method delivers an accurate and efficient solution tailored for real-world automated driving deployment. Qualitative results can be seen at https://youtu.be/H-hWRzv2lIY.
Abstract（参考訳）: LiDARは、自動運転における堅牢な3Dシーン認識に不可欠である。 LiDARの知覚は、カメラの知覚の後最大の文学体を持つ。しかし、LiDARを用いた検出、セグメンテーション、モーション推定といったタスクを横断するマルチタスク学習は、特に自動車グレードの組込みプラットフォームにおいて、比較的探索されていない。本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。統一アーキテクチャは、共有エンコーダとタスク固有のデコーダから構成され、共同表現学習を可能にする。オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。ヘテロジニアスなトレーニングスキームは、多様なデータセットを組み合わせて、タスク間の相補的な手がかりを活用する。この作業は、組み込みNVIDIA Xavierプラットフォーム上で3msのレイテンシを実現するLiDARポイントクラウドから、これらの重要な認識タスクを統合する最初の組み込み実装を提供する。我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。ハードウェア効率の最大化とマルチタスクのシナジーの活用により,本手法は実世界の自動走行システムに適した,正確かつ効率的なソリューションを提供する。質的な結果はhttps://youtu.be/H-hWRzv2lIYで見ることができる。

関連論文リスト

Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference [43.474068248379815]
都市交通に不可欠な複数のコンピュータビジョンタスクを訓練した統一型エンコーダを提案する。人間の知覚機構に類似した多様な視覚的手がかりを統合することで、エンコーダはナビゲーション関連の予測を強化する豊富な特徴をキャプチャする。その結果,(1) 統合エンコーダは,すべての視覚的認識タスク間での競合性能を達成し,強力な一般化能力を示すこと,(2) ステアリング推定のために,凍結された統合エンコーダを平均化することにより,その微細な調整された表現と,ImageNetのような汎用データセットで事前訓練された同じ凍結モデルの両方に優れることがわかった。
論文参考訳（メタデータ） (2024-09-16T08:54:03Z)
A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文参考訳（メタデータ） (2024-04-19T11:24:34Z)
Multi-task Learning for Real-time Autonomous Driving Leveraging Task-adaptive Attention Generator [15.94714567272497]
我々は,モノクロ3次元物体検出,セマンティックセグメンテーション,深度推定という3つの重要な自律運転タスクに適応する新しいリアルタイムマルチタスクネットワークを提案する。マルチタスク学習の課題であるネガティブトランスファーの課題に対処するために,タスク適応型アテンションジェネレータを導入する。私たちの厳格に最適化されたネットワークは、Cityscapes-3Dデータセットでテストすると、さまざまなベースラインモデルよりも一貫して優れています。
論文参考訳（メタデータ） (2024-03-06T05:04:40Z)
LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR Perception [15.919789515451615]
変換器に基づく新しいLiDARマルチタスク学習パラダイムを提案する。 LiDARFormerはクロスタスクのシナジーを利用して、LiDAR知覚タスクのパフォーマンスを向上させる。 LiDARFormerは3D検出とセマンティックセグメンテーションの両方のために、大規模なnuScenesとOpenデータセットで評価されている。
論文参考訳（メタデータ） (2023-03-21T20:52:02Z)
Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文参考訳（メタデータ） (2023-03-03T08:54:06Z)
LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。 DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文参考訳（メタデータ） (2022-03-14T15:25:42Z)
PillarGrid: Deep Learning-based Cooperative Perception for 3D Object Detection from Onboard-Roadside LiDAR [15.195933965761645]
我々は,複数の3次元LiDARからの情報を融合した新しい協調認識手法であるtextitPillarGridを提案する。 PillarGrid は,1) 点雲の協調前処理,2) 軸方向のボキセル化と特徴抽出,3) 複数のセンサからの特徴のグリッド方向の深層融合,4) 畳み込みニューラルネットワーク(CNN) に基づく3Dオブジェクト検出である。広汎な実験により、PillarGridはSOTA単一LiDARに基づく3Dオブジェクト検出法よりも精度と範囲を大きなマージンで上回ることがわかった。
論文参考訳（メタデータ） (2022-03-12T02:28:41Z)
The Devil is in the Task: Exploiting Reciprocal Appearance-Localization Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。 DFR-Netという動的特徴反射ネットワークを導入する。我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文参考訳（メタデータ） (2021-12-28T07:31:18Z)
Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。 AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文参考訳（メタデータ） (2021-04-23T17:59:28Z)
A Simple and Efficient Multi-task Network for 3D Object Detection and Road Understanding [20.878931360708343]
シンプルで効率的なマルチタスクネットワークを通じて、すべての知覚タスクを実行できることを示します。提案するネットワークであるLidarMTLは、生のLiDAR点雲を入力とし、3次元物体検出と道路理解のための6つの知覚出力を予測する。
論文参考訳（メタデータ） (2021-03-06T08:00:26Z)
LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文参考訳（メタデータ） (2020-11-24T08:44:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。