論文の概要: Multi-Modal Multi-Task (3MT) Road Segmentation
- arxiv url: http://arxiv.org/abs/2308.11983v1
- Date: Wed, 23 Aug 2023 08:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:05:15.542764
- Title: Multi-Modal Multi-Task (3MT) Road Segmentation
- Title(参考訳): マルチモーダルマルチタスク(3mt)道路セグメンテーション
- Authors: Erkan Milli, \"Ozg\"ur Erkent, As{\i}m Egemen Y{\i}lmaz
- Abstract要約: 我々は、多くのSOTA作業で通常行われているように、代わりに生のセンサー入力を使用することに重点を置いており、高い事前処理コストを必要とするアーキテクチャを活用している。
本研究では,複数センサからのデータをマルチタスク学習アーキテクチャに組み込むことにより,道路セグメンテーションの費用対効果,高精度なソリューションを提案する。
- 参考スコア(独自算出の注目度): 0.8287206589886879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal systems have the capacity of producing more reliable results than
systems with a single modality in road detection due to perceiving different
aspects of the scene. We focus on using raw sensor inputs instead of, as it is
typically done in many SOTA works, leveraging architectures that require high
pre-processing costs such as surface normals or dense depth predictions. By
using raw sensor inputs, we aim to utilize a low-cost model thatminimizes both
the pre-processing andmodel computation costs. This study presents a
cost-effective and highly accurate solution for road segmentation by
integrating data from multiple sensorswithin a multi-task learning
architecture.Afusion architecture is proposed in which RGB and LiDAR depth
images constitute the inputs of the network. Another contribution of this study
is to use IMU/GNSS (inertial measurement unit/global navigation satellite
system) inertial navigation system whose data is collected synchronously and
calibrated with a LiDAR-camera to compute aggregated dense LiDAR depth images.
It has been demonstrated by experiments on the KITTI dataset that the proposed
method offers fast and high-performance solutions. We have also shown the
performance of our method on Cityscapes where raw LiDAR data is not available.
The segmentation results obtained for both full and half resolution images are
competitive with existing methods. Therefore, we conclude that our method is
not dependent only on raw LiDAR data; rather, it can be used with different
sensor modalities. The inference times obtained in all experiments are very
promising for real-time experiments.
- Abstract(参考訳): マルチモーダルシステムは、シーンの異なる側面を認識することにより、道路検出の単一モードを持つシステムよりも信頼性の高い結果を生み出す能力を有する。
サーフェスノーマルや濃密な深さ予測のような高い前処理コストを必要とするアーキテクチャを活用することで、多くのsomaワークで行われているように、生のセンサー入力の使用に重点を置いています。
センサ入力を生入力することで,プリプロセッシングコストとモデル計算コストを最小化する低コストモデルの実現を目指す。
本研究では,複数センサからのデータをマルチタスク学習アーキテクチャに組み込むことにより,道路セグメント化の費用対効果と高精度化を実現し,RGBとLiDARの深度画像がネットワークの入力を構成する融合アーキテクチャを提案する。
また,imu/gnss (inertial measurement unit/global navigation satellite system) の慣性航法システムを用いて,lidarカメラを用いてデータ収集と校正を行い,密集したlidar深度画像の計算を行った。
KITTIデータセットを用いた実験により,提案手法が高速かつ高性能なソリューションを提供することを示した。
また, 生のLiDARデータが利用できない都市景観において, 提案手法の性能を示す。
フル解像度画像とハーフ解像度画像のセグメンテーション結果は既存の手法と競合する。
したがって,本手法は生のLiDARデータにのみ依存せず,センサの異なる方法で使用することができる。
すべての実験で得られた推論時間は、リアルタイム実験に非常に有望である。
関連論文リスト
- UdeerLID+: Integrating LiDAR, Image, and Relative Depth with Semi-Supervised [12.440461420762265]
道路分割は自動運転システムにとって重要な課題である。
我々の研究は、LiDARポイントクラウドデータ、ビジュアルイメージ、および相対深度マップを統合する革新的なアプローチを導入している。
主な課題の1つは、大規模で正確にラベル付けされたデータセットの不足である。
論文 参考訳(メタデータ) (2024-09-10T03:57:30Z) - Robust Depth Enhancement via Polarization Prompt Fusion Tuning [112.88371907047396]
様々な深度センサによる不正確な深度測定を改善するために偏光イメージングを利用するフレームワークを提案する。
まず、偏光データとセンサ深度マップから高密度で完全な深度マップを推定するために、ニューラルネットワークを訓練した学習ベースの戦略を採用する。
大規模データセット上で事前学習したRGBモデルを有効に活用するためのPPFT(Polarization Prompt Fusion Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-04-05T17:55:33Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - RGB-D based Stair Detection using Deep Learning for Autonomous Stair
Climbing [6.362951673024623]
本稿では,RGBマップと深度マップの両方の入力を持つニューラルネットワークアーキテクチャを提案する。
具体的には,RGBマップと深度マップの相補関係をネットワークが学習できるように,選択モジュールを設計する。
提案手法は,従来の最先端深層学習法と比較して精度の向上とリコールが可能であることを示す。
論文 参考訳(メタデータ) (2022-12-02T11:22:52Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - CalibDNN: Multimodal Sensor Calibration for Perception Using Deep Neural
Networks [27.877734292570967]
本稿では,マルチモーダルセンサ,特にLiDAR-Cameraペア間の正確な校正のための新しいディープラーニング駆動技術(CalibDNN)を提案する。
全体の処理は、単一のモデルと単一のイテレーションで完全に自動です。
異なる手法と異なるデータセットに対する広範な実験の結果は、最先端の性能を示している。
論文 参考訳(メタデータ) (2021-03-27T02:43:37Z) - Depth Completion via Inductive Fusion of Planar LIDAR and Monocular
Camera [27.978780155504467]
我々は、確率モデルにインスパイアされた異なるセンサのモーダル性をよりよく融合させるインダクティブ遅延融合ブロックを導入する。
このブロックは、疎深度特徴による実演に基づく深度予測を誘導するために、密集したコンテキスト特徴を使用する。
提案手法は,ベンチマークデータセットとシミュレーションデータセットの両方に対する従来のアプローチと比較して有望な結果を示す。
論文 参考訳(メタデータ) (2020-09-03T18:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。