論文の概要: YOLOP: You Only Look Once for Panoptic Driving Perception
- arxiv url: http://arxiv.org/abs/2108.11250v1
- Date: Wed, 25 Aug 2021 14:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 15:19:32.227417
- Title: YOLOP: You Only Look Once for Panoptic Driving Perception
- Title(参考訳): YOLOP:パンオプティカル・ドライビング・パーセプションで一度だけ見る
- Authors: Dong Wu, Manwen Liao, Weitian Zhang, Xinggang Wang
- Abstract要約: 本稿では,交通物体検出,乾燥領域分割,車線検出を同時に行うパノプティカル駆動認識ネットワーク(YOLOP)を提案する。
特徴抽出のための1つのエンコーダと、特定のタスクを処理する3つのデコーダで構成されている。
私たちのモデルは、BDD100Kデータセットで非常によく機能し、正確性とスピードの観点から、3つのタスクすべてで最先端の処理を実現しています。
- 参考スコア(独自算出の注目度): 21.802146960999394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A panoptic driving perception system is an essential part of autonomous
driving. A high-precision and real-time perception system can assist the
vehicle in making the reasonable decision while driving. We present a panoptic
driving perception network (YOLOP) to perform traffic object detection,
drivable area segmentation and lane detection simultaneously. It is composed of
one encoder for feature extraction and three decoders to handle the specific
tasks. Our model performs extremely well on the challenging BDD100K dataset,
achieving state-of-the-art on all three tasks in terms of accuracy and speed.
Besides, we verify the effectiveness of our multi-task learning model for joint
training via ablative studies. To our best knowledge, this is the first work
that can process these three visual perception tasks simultaneously in
real-time on an embedded device Jetson TX2(23 FPS) and maintain excellent
accuracy. To facilitate further research, the source codes and pre-trained
models will be released at https://github.com/hustvl/YOLOP.
- Abstract(参考訳): パノプティクス駆動認識システムは、自律運転の重要な部分である。
高精度かつリアルタイムな知覚システムは、運転中に合理的な判断を行うことで車両を補助することができる。
本稿では,交通物体検出,乾燥領域分割,車線検出を同時に行うパノプティカル駆動認識ネットワーク(YOLOP)を提案する。
特徴抽出のための1つのエンコーダと、特定のタスクを処理する3つのデコーダで構成されている。
私たちのモデルは、BDD100Kデータセットで非常によく機能し、正確性とスピードの観点から、3つのタスクすべてで最先端の処理を実現しています。
また,複合学習におけるマルチタスク学習モデルの有効性を,アブレイティブスタディを通して検証する。
私たちの知る限りでは、この3つの視覚知覚タスクをjetson tx2(23 fps)組み込みデバイス上でリアルタイムに処理し、優れた精度を維持することができる最初の作業です。
さらなる研究を容易にするため、ソースコードと事前訓練されたモデルはhttps://github.com/hustvl/YOLOP.comでリリースされる。
関連論文リスト
- Monocular Lane Detection Based on Deep Learning: A Survey [51.19079381823076]
車線検出は自律運転認識システムにおいて重要な役割を果たす。
ディープラーニングアルゴリズムが普及するにつれて、ディープラーニングに基づく単眼車線検出手法が優れた性能を示した。
本稿では, 成熟度の高い2次元車線検出手法と開発途上国の3次元車線検出技術の両方を網羅して, 既存手法の概要を概説する。
論文 参考訳(メタデータ) (2024-11-25T12:09:43Z) - Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference [43.474068248379815]
本稿では,都市ナビゲーションに不可欠な複数のコンピュータビジョンタスクを訓練した共有エンコーダを提案する。
ポーズ推定のためのマルチスケール特徴ネットワークを導入し,深度学習を改善する。
その結果,多様な視覚的タスクを訓練した共有バックボーンは,全体的な知覚能力を提供することができることがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:54:03Z) - Improving automatic detection of driver fatigue and distraction using
machine learning [0.0]
運転者の疲労と注意をそらした運転は交通事故の重要な要因である。
本稿では,視覚に基づくアプローチと機械学習に基づくアプローチを用いて,疲労と注意をそらした運転行動の同時検出手法を提案する。
論文 参考訳(メタデータ) (2024-01-04T06:33:46Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes [75.20435924081585]
JPerceiverは、モノクロビデオシーケンスからスケール認識深度とVOとBEVレイアウトを同時に推定することができる。
クロスビュー幾何変換(CGT)を利用して、絶対スケールを道路レイアウトから奥行きとVOに伝播させる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクの全てにおいて、既存のメソッドよりもJPerceiverの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-07-16T10:33:59Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Learning Accurate and Human-Like Driving using Semantic Maps and
Attention [152.48143666881418]
本稿では,より正確かつ人間らしく運転できるエンド・ツー・エンド駆動モデルについて検討する。
HERE Technologiesのセマンティックマップとビジュアルマップを活用し、既存のDrive360データセットを拡張します。
私たちのモデルは、実世界の運転データ60時間3000kmのDrive360+HEREデータセットでトレーニングされ、評価されています。
論文 参考訳(メタデータ) (2020-07-10T22:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。