論文の概要: LAPTNet-FPN: Multi-scale LiDAR-aided Projective Transform Network for
Real Time Semantic Grid Prediction
- arxiv url: http://arxiv.org/abs/2302.06414v1
- Date: Fri, 10 Feb 2023 12:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 15:11:23.316928
- Title: LAPTNet-FPN: Multi-scale LiDAR-aided Projective Transform Network for
Real Time Semantic Grid Prediction
- Title(参考訳): LAPTNet-FPN:リアルタイムセマンティックグリッド予測のためのマルチスケールLiDAR支援射影変換ネットワーク
- Authors: Manuel Alejandro Diaz-Zapata (CHROMA), David Sierra Gonz\'alez
(CHROMA), \"Ozg\"ur Erkent (CHROMA), Jilles Dibangoye (CHROMA), Christian
Laugier (CHROMA, E-MOTION, Inria)
- Abstract要約: 複数のセンサからの情報を融合することにより、ロバスト性を高め、タスクの計算負荷を低減できる。
当社のマルチスケールLiDAR支援型パースペクティブトランスフォーメーションネットワークは、ポイントクラウドで利用可能な情報を用いて、画像特徴の投影をトップビュー表現に導く。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic grids can be useful representations of the scene around an
autonomous system. By having information about the layout of the space around
itself, a robot can leverage this type of representation for crucial tasks such
as navigation or tracking. By fusing information from multiple sensors,
robustness can be increased and the computational load for the task can be
lowered, achieving real time performance. Our multi-scale LiDAR-Aided
Perspective Transform network uses information available in point clouds to
guide the projection of image features to a top-view representation, resulting
in a relative improvement in the state of the art for semantic grid generation
for human (+8.67%) and movable object (+49.07%) classes in the nuScenes
dataset, as well as achieving results close to the state of the art for the
vehicle, drivable area and walkway classes, while performing inference at 25
FPS.
- Abstract(参考訳): セマンティックグリッドは、自律システム周辺のシーンの有用な表現となり得る。
周囲の空間のレイアウトに関する情報を得ることで、ロボットはナビゲーションやトラッキングといった重要なタスクにこの種の表現を活用することができる。
複数のセンサからの情報を融合することにより、堅牢性を高め、タスクの計算負荷を低減し、リアルタイム性能を実現することができる。
マルチスケールlidar支援視点変換ネットワークは,画像特徴の投影をトップビュー表現に導くために,ポイントクラウドで利用可能な情報を使用し,nuscenesデータセットにおける人間の意味格子生成(+8.67%)と可動オブジェクト(+49.07%)に対する技術状態が相対的に改善されるとともに,車両や乾燥可能なエリア,通路クラスの技術に近い結果を得るとともに,25fpsで推論を行う。
関連論文リスト
- VDNA-PR: Using General Dataset Representations for Robust Sequential Visual Place Recognition [17.393105901701098]
本稿では、汎用データセット表現技術を用いて、堅牢な視覚的位置認識(VPR)記述子を生成する。
我々の実験は、我々の表現が、トレーニングデータ分布から真剣なドメインシフトへの現在の解決策よりも堅牢性を高めることができることを示している。
論文 参考訳(メタデータ) (2024-03-14T01:30:28Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Temporal Embeddings: Scalable Self-Supervised Temporal Representation
Learning from Spatiotemporal Data for Multimodal Computer Vision [1.4127889233510498]
移動活動時系列に基づいて景観を階層化する新しい手法を提案する。
ピクセルワイズ埋め込みは、タスクベースのマルチモーダルモデリングに使用できるイメージライクなチャネルに変換される。
論文 参考訳(メタデータ) (2023-10-16T02:53:29Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - LAPTNet: LiDAR-Aided Perspective Transform Network [0.0]
本稿では,LiDARとカメラ情報を融合してセマンティックグリッドを生成するアーキテクチャを提案する。
LAPTNetは、カメラプレーンの機能を、シーンの奥行き情報を予測することなく、鳥の目視に関連付けることができる。
論文 参考訳(メタデータ) (2022-11-14T18:56:02Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。