論文の概要: Do Different Tracking Tasks Require Different Appearance Models?
- arxiv url: http://arxiv.org/abs/2107.02156v1
- Date: Mon, 5 Jul 2021 17:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:21:24.496144
- Title: Do Different Tracking Tasks Require Different Appearance Models?
- Title(参考訳): 異なるトラッキングタスクは異なる外観モデルを必要とするか?
- Authors: Zhongdao Wang, Hengshuang Zhao, Ya-Li Li, Shengjin Wang, Philip H.S.
Torr, Luca Bertinetto
- Abstract要約: 我々は、同じフレームワーク内の5つの異なるタスクに対処する統合されたトラッキングソリューションUniTrackを提案する。
UniTrackは単一かつタスクに依存しない外観モデルで構成されており、教師付きまたは自己管理的な方法で学習することができる。
このフレームワークでは,ほとんどのトラッキングタスクがいかに解決可能かを示し,同じ外観モデルを用いて検討された5つのタスクすべてに対して,特殊化メソッドと競合する性能が得られることを示す。
- 参考スコア(独自算出の注目度): 118.02175542476367
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tracking objects of interest in a video is one of the most popular and widely
applicable problems in computer vision. However, with the years, a Cambrian
explosion of use cases and benchmarks has fragmented the problem in a multitude
of different experimental setups. As a consequence, the literature has
fragmented too, and now the novel approaches proposed by the community are
usually specialised to fit only one specific setup. To understand to what
extent this specialisation is actually necessary, in this work we present
UniTrack, a unified tracking solution to address five different tasks within
the same framework. UniTrack consists of a single and task-agnostic appearance
model, which can be learned in a supervised or self-supervised fashion, and
multiple "heads" to address individual tasks and that do not require training.
We show how most tracking tasks can be solved within this framework, and that
the same appearance model can be used to obtain performance that is competitive
against specialised methods for all the five tasks considered. The framework
also allows us to analyse appearance models obtained with the most recent
self-supervised methods, thus significantly extending their evaluation and
comparison to a larger variety of important problems. Code available at
https://github.com/Zhongdao/UniTrack.
- Abstract(参考訳): ビデオにおける関心事の追跡は、コンピュータビジョンにおいて最も人気があり、広く適用可能な問題の1つである。
しかし、長年にわたって、カンブリアのユースケースとベンチマークの爆発は、様々な実験的な設定で問題を断片化してきた。
その結果、文学も断片化され、現在ではコミュニティによって提案された新しいアプローチは、1つの特定の設定にのみ適合するように特別化されている。
この専門化が実際にどの程度必要かを理解するために、同じフレームワーク内の5つの異なるタスクに対処するための統合されたトラッキングソリューションであるUniTrackを紹介します。
UniTrackは1つのタスクに依存しない外観モデルで構成されており、教師付きまたは自己監督型で学習することができる。
このフレームワークでは,ほとんどのトラッキングタスクがいかに解決可能かを示し,同じ外観モデルを用いて,検討された5つのタスクすべてに対して,特殊化メソッドと競合する性能が得られることを示す。
このフレームワークは,最新の自己監督手法を用いて得られた外観モデルの解析を可能にし,その評価と,より多種多様な重要な問題との比較を著しく拡張する。
コードはhttps://github.com/zhongdao/unitrack。
関連論文リスト
- Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Multi-target tracking for video surveillance using deep affinity
network: a brief review [0.0]
ビデオ監視のためのマルチターゲットトラッキング(MTT)は、重要かつ困難なタスクの1つである。
深層学習モデルは人間の脳のように機能することが知られている。
論文 参考訳(メタデータ) (2021-10-29T10:44:26Z) - Discriminative Appearance Modeling with Multi-track Pooling for
Real-time Multi-object Tracking [20.66906781151]
マルチオブジェクトトラッキングでは、トラッカーはそのメモリ内にシーンの各オブジェクトの外観と動き情報を保持する。
多くのアプローチは、それぞれのターゲットを分離してモデル化し、シーン内のすべてのターゲットを使用してメモリを共同で更新する能力がない。
オンライン上でハードトラッキングのエピソードを生成するマルチトラックプーリングに適応したトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-28T18:12:39Z) - Assisting Scene Graph Generation with Self-Supervision [21.89909688056478]
本稿では,3つの新しい自己スーパービジョンタスクのセットを提案し,それらをメインモデルへの補助的マルチタスクとして訓練する。
比較しながら、これらのセルフスーパービジョンタスクでベースモデルをスクラッチからトレーニングし、すべてのメトリクスとリコール設定で最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-08-08T16:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。