論文の概要: Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving
- arxiv url: http://arxiv.org/abs/2309.04422v2
- Date: Sun, 26 Nov 2023 15:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 14:47:35.703114
- Title: Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving
- Title(参考訳): Video Task Decathlon: 自動運転における画像とビデオタスクの統合
- Authors: Thomas E. Huang, Yifan Liu, Luc Van Gool, Fisher Yu
- Abstract要約: Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
- 参考スコア(独自算出の注目度): 85.62076860189116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performing multiple heterogeneous visual tasks in dynamic scenes is a
hallmark of human perception capability. Despite remarkable progress in image
and video recognition via representation learning, current research still
focuses on designing specialized networks for singular, homogeneous, or simple
combination of tasks. We instead explore the construction of a unified model
for major image and video recognition tasks in autonomous driving with diverse
input and output structures. To enable such an investigation, we design a new
challenge, Video Task Decathlon (VTD), which includes ten representative image
and video tasks spanning classification, segmentation, localization, and
association of objects and pixels. On VTD, we develop our unified network,
VTDNet, that uses a single structure and a single set of weights for all ten
tasks. VTDNet groups similar tasks and employs task interaction stages to
exchange information within and between task groups. Given the impracticality
of labeling all tasks on all frames, and the performance degradation associated
with joint training of many tasks, we design a Curriculum training,
Pseudo-labeling, and Fine-tuning (CPF) scheme to successfully train VTDNet on
all tasks and mitigate performance loss. Armed with CPF, VTDNet significantly
outperforms its single-task counterparts on most tasks with only 20% overall
computations. VTD is a promising new direction for exploring the unification of
perception tasks in autonomous driving.
- Abstract(参考訳): 動的シーンで複数の異種視覚タスクを実行することは、人間の知覚能力の要点である。
表現学習による画像およびビデオ認識の著しい進歩にもかかわらず、現在の研究は、タスクの特異性、均質性、あるいは単純な組み合わせのための特別なネットワークの設計に焦点を当てている。
そこで我々は,様々な入出力構造を有する自律運転における主要画像および映像認識タスクのための統一モデルの構築について検討する。
そこで本研究では,対象と画素の分類,セグメンテーション,局所化,関連付けにまたがる10の代表的な画像および映像タスクを含む,新たな課題であるvtd(video task decathlon)を設計した。
VTDでは,1つの構造と1組の重みを持つ統一ネットワークであるVTDNetを,全10タスクに対して開発する。
VTDNetは同様のタスクをグループ化し、タスクグループ内およびタスクグループ間で情報交換を行う。
すべてのタスクにラベル付けする非現実性や,多数のタスクの共同トレーニングに伴うパフォーマンス劣化を考慮し,VTDNetの学習に成功し,性能損失を軽減するためのカリキュラムトレーニング,擬似ラベル付け,ファインチューニング(CPF)方式を設計する。
CPFで武装したVTDNetは、ほとんどのタスクにおいて、全体の20%しか計算できないシングルタスクよりも大幅に優れている。
vtdは、自動運転における知覚タスクの統一を探求するための有望な新しい方向である。
関連論文リスト
- UniAV: Unified Audio-Visual Perception for Multi-Task Video Event Localization [83.89550658314741]
ビデオローカライゼーションタスクは、時間的アクションローカライゼーション(TAL)、サウンドイベント検出(SED)、オーディオ視覚イベントローカライゼーション(AVEL)など、ビデオ内の特定のインスタンスを時間的に特定することを目的としている。
本報告では, tal, SED, AVELタスクの協調学習を初めて行うために, 統合音声認識ネットワークUniAVを提案する。
論文 参考訳(メタデータ) (2024-04-04T03:28:57Z) - CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation [31.167405688707575]
ビデオフレーム上でのインスタンスレベルの視覚分析のためのフレームワークを提案する。
オブジェクト検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングを同時に行うことができる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットを用いて広範に評価する。
論文 参考訳(メタデータ) (2023-11-02T04:32:24Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Egocentric Video Task Translation [109.30649877677257]
EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。
従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
論文 参考訳(メタデータ) (2022-12-13T00:47:13Z) - A Unified Sequence Interface for Vision Tasks [87.328893553186]
計算機ビジョンタスクの多種多様な集合は、共有画素対シーケンスインタフェースで定式化すれば統一可能であることを示す。
オブジェクト検出、インスタンスのセグメンテーション、キーポイント検出、イメージキャプションの4つのタスクにフォーカスする。
我々は、タスク固有のカスタマイズなしで、単一のモデルアーキテクチャと損失関数でニューラルネットワークをトレーニングできることを示します。
論文 参考訳(メタデータ) (2022-06-15T17:08:53Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Generative Modeling for Multi-task Visual Learning [40.96212750592383]
様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。
本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。
我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-25T03:42:59Z) - NeurAll: Towards a Unified Visual Perception Model for Automated Driving [8.49826472556323]
本稿では,複数のタスクを同時に学習するためのマルチタスクネットワーク設計を提案する。
自動運転システムの主なボトルネックは、デプロイメントハードウェアで利用可能な限られた処理能力である。
論文 参考訳(メタデータ) (2019-02-10T12:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。