論文の概要: OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2102.07448v1
- Date: Mon, 15 Feb 2021 10:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:25:12.555114
- Title: OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving
- Title(参考訳): omnidet: サラウンドビューカメラを用いた自律運転のためのマルチタスク視覚知覚ネットワーク
- Authors: Varun Ravi Kumar, Senthil Yogamani, Hazem Rashed, Ganesh Sitsu,
Christian Witt, Isabelle Leang, Stefan Milz and Patrick M\"ader
- Abstract要約: 本研究では,魚眼画像に対するマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 8.052635686437403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surround View fisheye cameras are commonly deployed in automated driving for
360\deg{} near-field sensing around the vehicle. This work presents a
multi-task visual perception network on unrectified fisheye images to enable
the vehicle to sense its surrounding environment. It consists of six primary
tasks necessary for an autonomous driving system: depth estimation, visual
odometry, semantic segmentation, motion segmentation, object detection, and
lens soiling detection. We demonstrate that the jointly trained model performs
better than the respective single task versions. Our multi-task model has a
shared encoder providing a significant computational advantage and has
synergized decoders where tasks support each other. We propose a novel camera
geometry based adaptation mechanism to encode the fisheye distortion model both
at training and inference. This was crucial to enable training on the WoodScape
dataset, comprised of data from different parts of the world collected by 12
different cameras mounted on three different cars with different intrinsics and
viewpoints. Given that bounding boxes is not a good representation for
distorted fisheye images, we also extend object detection to use a polygon with
non-uniformly sampled vertices. We additionally evaluate our model on standard
automotive datasets, namely KITTI and Cityscapes. We obtain the
state-of-the-art results on KITTI for depth estimation and pose estimation
tasks and competitive performance on the other tasks. We perform extensive
ablation studies on various architecture choices and task weighting
methodologies. A short video at https://youtu.be/xbSjZ5OfPes provides
qualitative results.
- Abstract(参考訳): 周囲の魚眼カメラは360\deg{}の近接場検知のための自動走行に一般的に配備される。
本研究は、未修正魚眼画像にマルチタスクの視覚知覚ネットワークを導入し、車両が周囲の環境を感知できるようにする。
自律走行システムに必要な6つの主要なタスクで構成されており、深度推定、視覚計測、セマンティックセグメンテーション、モーションセグメンテーション、物体検出、レンズ土壌検出である。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
我々のマルチタスクモデルは共有エンコーダを備えており、タスクが互いにサポートする相乗化デコーダを備えている。
訓練時と推論時の魚眼歪みモデルをエンコードする,新しいカメラ形状に基づく適応機構を提案する。
これは3台の異なる車に搭載された12台の異なるカメラによって収集された世界のさまざまな場所のデータからなるウッドスケープデータセットのトレーニングを可能にするために重要だった。
拘束箱が歪んだ魚眼画像の表現に適さないことを考えると、物体検出も一様でないサンプルの頂点を持つポリゴンを使用するように拡張する。
さらに、標準的な自動車データセット、すなわちKITTIとCityscapesのモデルを評価します。
深度推定とポーズ推定のタスクと他のタスクの競争パフォーマンスのためのKITTIの最新の結果を取得します。
我々は様々なアーキテクチャの選択とタスク重み付け手法に関する広範囲なアブレーション研究を行う。
https://youtu.be/xbSjZ5OfPesの短いビデオは定性的な結果を提供します。
関連論文リスト
- Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Linking vision and motion for self-supervised object-centric perception [16.821130222597155]
オブジェクト中心の表現は、自律運転アルゴリズムが多くの独立したエージェントとシーンの特徴の間の相互作用を推論することを可能にする。
伝統的にこれらの表現は教師付き学習によって得られてきたが、これは下流の駆動タスクからの認識を分離し、一般化を損なう可能性がある。
我々は、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを適用してオブジェクト分解を行う。
論文 参考訳(メタデータ) (2023-07-14T04:21:05Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Disentangling and Vectorization: A 3D Visual Perception Approach for
Autonomous Driving Based on Surround-View Fisheye Cameras [3.485767750936058]
多次元ベクトルは、異なる次元と段階で生成される有効情報を含むことが提案されている。
実魚眼画像実験により,本手法は実時間で最先端の精度を達成できることが実証された。
論文 参考訳(メタデータ) (2021-07-19T13:24:21Z) - SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround
View Fisheye Cameras [30.480562747903186]
シーンジオメトリの360deg認識は、特に駐車場や都市部の運転シナリオで、自動運転に不可欠です。
カメラパラメータを条件入力として用いる,新しいカメラジオメトリー適応型マルチスケール畳み込み法を提案する。
魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-09T15:20:20Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Generalized Object Detection on Fisheye Cameras for Autonomous Driving:
Dataset, Representations and Baseline [5.1450366450434295]
魚眼画像における物体検出のための配向境界ボックス,楕円,ジェネリックポリゴンなどのより良い表現について検討する。
魚眼歪みモデルに最適な特性を持つ曲面境界箱モデルを設計する。
これは、自律走行シナリオのための魚眼カメラにおける物体検出に関する最初の詳細な研究である。
論文 参考訳(メタデータ) (2020-12-03T18:00:16Z) - MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views [60.538802124885414]
マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。
MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
論文 参考訳(メタデータ) (2020-06-09T21:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。