論文の概要: MVFuseNet: Improving End-to-End Object Detection and Motion Forecasting
through Multi-View Fusion of LiDAR Data
- arxiv url: http://arxiv.org/abs/2104.10772v1
- Date: Wed, 21 Apr 2021 21:29:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 13:46:54.484061
- Title: MVFuseNet: Improving End-to-End Object Detection and Motion Forecasting
through Multi-View Fusion of LiDAR Data
- Title(参考訳): MVFuseNet:LiDARデータの多視点融合によるエンドツーエンド物体検出とモーション予測の改善
- Authors: Ankit Laddha, Shivam Gautam, Stefan Palombo, Shreyash Pandey, Carlos
Vallespi-Gonzalez
- Abstract要約: We propose itMVFusenet, a novel end-to-end method for joint object detection motion forecasting from a temporal sequence of LiDAR data。
2つの大規模自動運転データセットの検出と動作予測のタスクに対する当社のマルチビューアプローチの利点を示します。
- 参考スコア(独自算出の注目度): 4.8061970432391785
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we propose \textit{MVFuseNet}, a novel end-to-end method for
joint object detection and motion forecasting from a temporal sequence of LiDAR
data. Most existing methods operate in a single view by projecting data in
either range view (RV) or bird's eye view (BEV). In contrast, we propose a
method that effectively utilizes both RV and BEV for spatio-temporal feature
learning as part of a temporal fusion network as well as for multi-scale
feature learning in the backbone network. Further, we propose a novel
sequential fusion approach that effectively utilizes multiple views in the
temporal fusion network. We show the benefits of our multi-view approach for
the tasks of detection and motion forecasting on two large-scale self-driving
data sets, achieving state-of-the-art results. Furthermore, we show that
MVFusenet scales well to large operating ranges while maintaining real-time
performance.
- Abstract(参考訳): 本稿では,LiDARデータの時間的シーケンスからオブジェクトの検出と動きの予測を行う,新しいエンドツーエンド手法である「textit{MVFuseNet}」を提案する。
既存のほとんどの方法は、レンジビュー (RV) またはバードアイビュー (BEV) にデータを投影することで単一のビューで操作する。
対照的に、RVとBEVの両方を時間的融合ネットワークの一部として時空間特徴学習と、バックボーンネットワークにおけるマルチスケール特徴学習に有効活用する手法を提案する。
さらに、時間融合ネットワークにおける複数のビューを効果的に活用する新しい逐次融合手法を提案する。
本稿では,2つの大規模自動運転データセットにおける検出と動き予測のタスクに対する多視点的アプローチの利点を示す。
さらに,MVFusenetはリアルタイム性能を維持しながら,大規模な動作範囲に拡張可能であることを示す。
関連論文リスト
- Conformal Trajectory Prediction with Multi-View Data Integration in Cooperative Driving [4.628774934971078]
軌道予測に関する現在の研究は、主にエゴ車両の搭載センサーによって収集されたデータに依存している。
V2INetは、既存の単一ビューモデルを拡張することで、マルチビューデータをモデル化するための新しい軌道予測フレームワークである。
以上の結果から,FDE(Final Displacement Error)とMR(Miss Rate)において,単一GPUを用いた優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-01T08:32:03Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - VS-Net: Multiscale Spatiotemporal Features for Lightweight Video Salient
Document Detection [0.2578242050187029]
拡張深度分割可能な畳み込みと近似ランクプーリングの助けを借りて,マルチスケールの時間情報をキャプチャするVS-Netを提案する。
本モデルでは,背景と前景の両方を考慮したサリエンシマップを作成した。
MIDV-500データセットで規制された膨大な実験は、VS-Netモデルが時間と堅牢性の両方で最先端のアプローチより優れていることを示している。
論文 参考訳(メタデータ) (2023-01-11T13:07:31Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - 3DMODT: Attention-Guided Affinities for Joint Detection & Tracking in 3D
Point Clouds [95.54285993019843]
本稿では,3次元点雲における複数物体の同時検出と追跡手法を提案する。
本モデルでは,複数のフレームを用いた時間情報を利用してオブジェクトを検出し,一つのネットワーク上で追跡する。
論文 参考訳(メタデータ) (2022-11-01T20:59:38Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Multi-View Fusion of Sensor Data for Improved Perception and Prediction
in Autonomous Driving [11.312620949473938]
本稿では,LiDARとカメラ画像の多視点表現を用いた物体検出と軌跡予測のエンドツーエンド手法を提案する。
我々のモデルは最先端のBird's-Eye View(BEV)ネットワーク上に構築され、歴史的なLiDARデータからボキセル化された特徴を融合する。
我々は、このモデルを、ネイティブな非量子化表現で生のLiDAR情報を使用する追加のLiDAR Range-View (RV)機能で拡張する。
論文 参考訳(メタデータ) (2020-08-27T03:32:25Z) - RV-FuseNet: Range View Based Fusion of Time-Series LiDAR Data for Joint
3D Object Detection and Motion Forecasting [13.544498422625448]
本稿では,共同検出と軌道推定のための新しいエンドツーエンドアプローチであるRV-FuseNetを提案する。
広範に使用されている鳥眼ビュー(BEV)表現の代わりに,LiDARデータのネイティブレンジビュー(RV)表現を利用する。
提案手法は,既存の最先端技術よりも動作予測性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2020-05-21T19:22:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。