Fugu-MT 論文翻訳(概要): You Only Look at Once for Real-time and Generic Multi-Task

論文の概要: You Only Look at Once for Real-time and Generic Multi-Task

arxiv url: http://arxiv.org/abs/2310.01641v3
Date: Thu, 2 Nov 2023 16:52:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-03 16:44:17.758985
Title: You Only Look at Once for Real-time and Generic Multi-Task
Title（参考訳）: リアルタイムと汎用的なマルチタスクを一度だけ見る
Authors: Jiayuan Wang, Q. M. Jonathan Wu and Ning Zhang
Abstract要約: 自律運転のための適応的,リアルタイム,軽量なマルチタスクモデルを提案する。オブジェクト検出、乾燥可能なエリアセグメンテーション、レーンラインセグメンテーションタスクに対処する。その結果、オブジェクト検出のmAP50は81.1%、乾燥可能な領域分割のmIoUは91.0%、レーン線分割のIoUは28.8%であった。
参考スコア（独自算出の注目度）: 23.16894254343321
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High precision, lightweight, and real-time responsiveness are three essential requirements for implementing autonomous driving. In this study, we present an adaptive, real-time, and lightweight multi-task model designed to concurrently address object detection, drivable area segmentation, and lane line segmentation tasks. Specifically, we developed an end-to-end multi-task model with a unified and streamlined segmentation structure. We introduced a learnable parameter that adaptively concatenate features in segmentation necks, using the same loss function for all segmentation tasks. This eliminates the need for customizations and enhances the model's generalization capabilities. We also introduced a segmentation head composed only of a series of convolutional layers, which reduces the inference time. We achieved competitive results on the BDD100k dataset, particularly in visualization outcomes. The performance results show a mAP50 of 81.1% for object detection, a mIoU of 91.0% for drivable area segmentation, and an IoU of 28.8% for lane line segmentation. Additionally, we introduced real-world scenarios to evaluate our model's performance in a real scene, which significantly outperforms competitors. This demonstrates that our model not only exhibits competitive performance but is also more flexible and faster than existing multi-task models. The source codes and pre-trained models are released at https://github.com/JiayuanWang-JW/YOLOv8-multi-task
Abstract（参考訳）: 高精度、軽量、リアルタイムの応答性は、自動運転を実装するための3つの必須要件である。本研究では,オブジェクト検出,ドリブル領域分割,レーン線分割を同時に行うように設計された適応的,リアルタイム,軽量なマルチタスクモデルを提案する。具体的には、統一的で合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。セグメンテーションネックにおける特徴を適応結合する学習可能なパラメータを導入し,すべてのセグメンテーションタスクにおいて同じ損失関数を用いた。これにより、カスタマイズの必要性がなくなり、モデルの一般化機能が強化される。また,一連の畳み込み層のみからなるセグメンテーションヘッドを導入し,推論時間を短縮した。 BDD100kデータセット上で、特に視覚化結果の競合的な結果を達成したのです。その結果, 物体検出用mAP50は81.1%, 乾燥領域分割用mIoUは91.0%, レーン線分割用IoUは28.8%であった。さらに、実際のシーンでモデルのパフォーマンスを評価するために、実世界のシナリオを導入しました。これは、我々のモデルは競争性能を示すだけでなく、既存のマルチタスクモデルよりも柔軟で高速であることを示している。ソースコードと事前訓練済みモデルはhttps://github.com/JiayuanWang-JW/YOLOv8-multi-taskで公開されている。

関連論文リスト

SAMPO: Visual Preference Optimization for Intent-Aware Segmentation with Vision Foundation Models [5.3279948735247284]
SAMPOは、視覚的基礎モデルに、疎視的相互作用から高レベルのカテゴリー的意図を推論する新しいフレームワークである。我々の研究は、視覚基盤モデルにおける意図認識のアライメントのための新しいパラダイムを確立し、補助的なプロンプトジェネレータや言語モデル支援の嗜好学習への依存を取り除く。
論文参考訳（メタデータ） (2025-08-04T14:31:11Z)
RMT-PPAD: Real-time Multi-task Learning for Panoptic Perception in Autonomous Driving [18.945598464194607]
RMT-PPADはリアルタイムトランスフォーマーベースのマルチタスクモデルである。オブジェクト検出、ドライビング可能なエリアセグメンテーション、レーンラインセグメンテーションを共同で行う。その結果,RTT-PPADは安定した性能が得られた。
論文参考訳（メタデータ） (2025-08-02T16:34:24Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。 OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-01-18T18:59:34Z)
RAP-SAM: Towards Real-Time All-Purpose Segment Anything [120.17175256421622]
Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。本研究は、リアルタイムデプロイメントにおけるVFMの転送を実現するために、リアルタイムに全目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
論文参考訳（メタデータ） (2024-01-18T18:59:30Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
Body Segmentation Using Multi-task Learning [1.0832844764942349]
本稿では,3つのタスクを伴い,人間のセグメンテーション/パーシングのための新しいマルチタスクモデルを提案する。提案された--Pose--DensePoseモデル(略してSPD)の背景にある主な考え方は、異なるが関連するタスク間で知識を共有することによって、より良いセグメンテーションモデルを学ぶことである。モデルの性能は、LIPおよびATRデータセットの厳密な実験により分析され、最近の(最先端)マルチタスクボディセグメンテーションモデルと比較される。
論文参考訳（メタデータ） (2022-12-13T13:06:21Z)
Monocular Instance Motion Segmentation for Autonomous Driving: KITTI InstanceMotSeg Dataset and Multi-task Baseline [5.000331633798637]
オブジェクトのセグメンテーションは、クラス非依存の方法でオブジェクトをセグメンテーションするために使用できるため、自動運転車にとって重要なタスクである。自律走行の文献ではピクセル単位の運動セグメンテーションが研究されているが、インスタンスレベルではめったに研究されていない。我々は、KITTIMoSegデータセットを改善した12.9Kサンプルからなる新しいInstanceMotSegデータセットを作成します。
論文参考訳（メタデータ） (2020-08-16T21:47:09Z)
The Devil is in Classification: A Simple Framework for Long-tail Object Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。主な原因は、オブジェクト提案の不正確な分類である。そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-23T12:49:07Z)
Objectness-Aware Few-Shot Semantic Segmentation [31.13009111054977]
モデル全体のキャパシティを向上し、パフォーマンスを向上させる方法を示す。我々は、クラス非依存であり、過度に適合しがちな客観性を導入する。注釈のないカテゴリの例が1つだけあると、実験により、mIoUに関して、我々の手法が最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2020-04-06T19:12:08Z)
Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-02-27T21:58:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。