論文の概要: You Only Look at Once for Real-time and Generic Multi-Task
- arxiv url: http://arxiv.org/abs/2310.01641v1
- Date: Mon, 2 Oct 2023 21:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 18:48:51.309633
- Title: You Only Look at Once for Real-time and Generic Multi-Task
- Title(参考訳): リアルタイムと汎用的なマルチタスクを一度だけ見る
- Authors: Jiayuan Wang, Q. M. Jonathan Wu and Ning Zhang
- Abstract要約: オブジェクト検出,ドライビング可能な領域分割,車線検出タスクを並列に扱うために,適応的,リアルタイム,軽量なマルチタスクモデルを提案する。
私たちのモデルは、特定のカスタマイズ構造や損失関数を必要とせずに動作します。
その結果、オブジェクト検出のmAP50は81.1%、乾燥可能な領域分割のmIoUは91.0%、レーン線分割のIoUは28.8%であった。
- 参考スコア(独自算出の注目度): 23.16894254343321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High precision, lightweight, and real-time responsiveness are three essential
requirements for implementing autonomous driving. Considering all of them
simultaneously is a challenge. In this study, we present an adaptive,
real-time, and lightweight multi-task model designed to concurrently handle
object detection, drivable area segmentation, and lane detection tasks. To
achieve this research objective, we developed an end-to-end multi-task model
with a unified and streamlined segmentation structure. Our model operates
without the need for any specific customization structure or loss function. We
achieved competitive results on the BDD100k dataset, particularly in
visualization outcomes. The performance results show a mAP50 of 81.1% for
object detection, a mIoU of 91.0% for drivable area segmentation, and an IoU of
28.8% for lane line segmentation. Additionally, we introduced a real-road
dataset to evaluate our model's performance in a real scene, which
significantly outperforms competitors. This demonstrates that our model not
only exhibits competitive performance but is also more flexible and faster than
existing multi-task models. The source codes and pre-trained models are
released at https://github.com/JiayuanWang-JW/YOLOv8-multi-task
- Abstract(参考訳): 高精度、軽量、リアルタイムの応答性は、自動運転を実装するための3つの必須要件である。
それらすべてを同時に考えることは課題です。
本研究では,オブジェクト検出,ドリブル領域分割,レーン検出を同時に行うように設計された適応的,リアルタイム,軽量なマルチタスクモデルを提案する。
この研究目的を達成するために,統一的かつ合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。
我々のモデルは特定のカスタマイズ構造や損失関数を必要とせずに動作する。
BDD100kデータセット上で、特に視覚化結果の競合的な結果を達成したのです。
その結果, 物体検出用mAP50は81.1%, 乾燥領域分割用mIoUは91.0%, レーン線分割用IoUは28.8%であった。
さらに、実際のシーンでモデルのパフォーマンスを評価するために、リアルタイムデータセットを導入しました。
これは、我々のモデルは競争性能を示すだけでなく、既存のマルチタスクモデルよりも柔軟で高速であることを示している。
ソースコードと事前訓練済みモデルはhttps://github.com/JiayuanWang-JW/YOLOv8-multi-taskで公開されている。
関連論文リスト
- OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - RAP-SAM: Towards Real-Time All-Purpose Segment Anything [120.17175256421622]
Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。
現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。
本研究は、リアルタイムデプロイメントにおけるVFMの転送を実現するために、リアルタイムに全目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:30Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Body Segmentation Using Multi-task Learning [1.0832844764942349]
本稿では,3つのタスクを伴い,人間のセグメンテーション/パーシングのための新しいマルチタスクモデルを提案する。
提案された--Pose--DensePoseモデル(略してSPD)の背景にある主な考え方は、異なるが関連するタスク間で知識を共有することによって、より良いセグメンテーションモデルを学ぶことである。
モデルの性能は、LIPおよびATRデータセットの厳密な実験により分析され、最近の(最先端)マルチタスクボディセグメンテーションモデルと比較される。
論文 参考訳(メタデータ) (2022-12-13T13:06:21Z) - Monocular Instance Motion Segmentation for Autonomous Driving: KITTI
InstanceMotSeg Dataset and Multi-task Baseline [5.000331633798637]
オブジェクトのセグメンテーションは、クラス非依存の方法でオブジェクトをセグメンテーションするために使用できるため、自動運転車にとって重要なタスクである。
自律走行の文献ではピクセル単位の運動セグメンテーションが研究されているが、インスタンスレベルではめったに研究されていない。
我々は、KITTIMoSegデータセットを改善した12.9Kサンプルからなる新しいInstanceMotSegデータセットを作成します。
論文 参考訳(メタデータ) (2020-08-16T21:47:09Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Objectness-Aware Few-Shot Semantic Segmentation [31.13009111054977]
モデル全体のキャパシティを向上し、パフォーマンスを向上させる方法を示す。
我々は、クラス非依存であり、過度に適合しがちな客観性を導入する。
注釈のないカテゴリの例が1つだけあると、実験により、mIoUに関して、我々の手法が最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-04-06T19:12:08Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。