論文の概要: You Only Look at Once for Real-time and Generic Multi-Task
- arxiv url: http://arxiv.org/abs/2310.01641v3
- Date: Thu, 2 Nov 2023 16:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 16:44:17.758985
- Title: You Only Look at Once for Real-time and Generic Multi-Task
- Title(参考訳): リアルタイムと汎用的なマルチタスクを一度だけ見る
- Authors: Jiayuan Wang, Q. M. Jonathan Wu and Ning Zhang
- Abstract要約: 自律運転のための適応的,リアルタイム,軽量なマルチタスクモデルを提案する。
オブジェクト検出、乾燥可能なエリアセグメンテーション、レーンラインセグメンテーションタスクに対処する。
その結果、オブジェクト検出のmAP50は81.1%、乾燥可能な領域分割のmIoUは91.0%、レーン線分割のIoUは28.8%であった。
- 参考スコア(独自算出の注目度): 23.16894254343321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High precision, lightweight, and real-time responsiveness are three essential
requirements for implementing autonomous driving. In this study, we present an
adaptive, real-time, and lightweight multi-task model designed to concurrently
address object detection, drivable area segmentation, and lane line
segmentation tasks. Specifically, we developed an end-to-end multi-task model
with a unified and streamlined segmentation structure. We introduced a
learnable parameter that adaptively concatenate features in segmentation necks,
using the same loss function for all segmentation tasks. This eliminates the
need for customizations and enhances the model's generalization capabilities.
We also introduced a segmentation head composed only of a series of
convolutional layers, which reduces the inference time. We achieved competitive
results on the BDD100k dataset, particularly in visualization outcomes. The
performance results show a mAP50 of 81.1% for object detection, a mIoU of 91.0%
for drivable area segmentation, and an IoU of 28.8% for lane line segmentation.
Additionally, we introduced real-world scenarios to evaluate our model's
performance in a real scene, which significantly outperforms competitors. This
demonstrates that our model not only exhibits competitive performance but is
also more flexible and faster than existing multi-task models. The source codes
and pre-trained models are released at
https://github.com/JiayuanWang-JW/YOLOv8-multi-task
- Abstract(参考訳): 高精度、軽量、リアルタイムの応答性は、自動運転を実装するための3つの必須要件である。
本研究では,オブジェクト検出,ドリブル領域分割,レーン線分割を同時に行うように設計された適応的,リアルタイム,軽量なマルチタスクモデルを提案する。
具体的には、統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。
セグメンテーションネックにおける特徴を適応結合する学習可能なパラメータを導入し,すべてのセグメンテーションタスクにおいて同じ損失関数を用いた。
これにより、カスタマイズの必要性がなくなり、モデルの一般化機能が強化される。
また,一連の畳み込み層のみからなるセグメンテーションヘッドを導入し,推論時間を短縮した。
BDD100kデータセット上で、特に視覚化結果の競合的な結果を達成したのです。
その結果, 物体検出用mAP50は81.1%, 乾燥領域分割用mIoUは91.0%, レーン線分割用IoUは28.8%であった。
さらに、実際のシーンでモデルのパフォーマンスを評価するために、実世界のシナリオを導入しました。
これは、我々のモデルは競争性能を示すだけでなく、既存のマルチタスクモデルよりも柔軟で高速であることを示している。
ソースコードと事前訓練済みモデルはhttps://github.com/JiayuanWang-JW/YOLOv8-multi-taskで公開されている。
関連論文リスト
- OMG-Seg: Is One Model Good Enough For All Segmentation? [86.29839352757922]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - RAP-SAM: Towards Real-Time All-Purpose Segment Anything [120.17175256421622]
Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。
現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。
本研究は、リアルタイムデプロイメントにおけるVFMの転送を実現するために、リアルタイムに全目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:30Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Hierarchical Side-Tuning for Vision Transformers [34.55731467838914]
本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。
HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,多様な視覚的タスクを含む広範な実験を行った。
VTAB-1kでは,0.78Mパラメータを微調整しながら,最先端の平均Top-1精度76.4%を実現した。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Monocular Instance Motion Segmentation for Autonomous Driving: KITTI
InstanceMotSeg Dataset and Multi-task Baseline [5.000331633798637]
オブジェクトのセグメンテーションは、クラス非依存の方法でオブジェクトをセグメンテーションするために使用できるため、自動運転車にとって重要なタスクである。
自律走行の文献ではピクセル単位の運動セグメンテーションが研究されているが、インスタンスレベルではめったに研究されていない。
我々は、KITTIMoSegデータセットを改善した12.9Kサンプルからなる新しいInstanceMotSegデータセットを作成します。
論文 参考訳(メタデータ) (2020-08-16T21:47:09Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。