論文の概要: Beyond MOT: Semantic Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2403.05021v1
- Date: Fri, 8 Mar 2024 03:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:06:21.780823
- Title: Beyond MOT: Semantic Multi-Object Tracking
- Title(参考訳): beyond mot: セマンティックなマルチオブジェクトトラッキング
- Authors: Yunhao Li, Hao Wang, Qin Li, Xue Ma, Jiali Yao, Shaohua Dong, Heng
Fan, Libo Zhang
- Abstract要約: 現在のマルチオブジェクト追跡(MOT)は、ビデオ中のターゲット(つまり「場所」)の軌跡を予測することを目的としている。
本稿では,オブジェクトのトラジェクトリを推定し,関連するトラジェクトリの意味的詳細を理解することを目的としたセマンティック・マルチオブジェクト追跡(SMOT)を紹介する。
BenSMOTは3,292本のビデオと151Kフレームで構成され、人間のセマンティックトラッキングのさまざまなシナリオをカバーしている。
今後の研究を促進するために,SMOTerという新しいトラッカーを紹介し,SMOTのために特別に設計し,エンドツーエンドで訓練する。
- 参考スコア(独自算出の注目度): 18.97076442302879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multi-object tracking (MOT) aims to predict trajectories of targets
(i.e.,"where") in videos. Yet, knowing merely "where" is insufficient in many
crucial applications. In comparison, semantic understanding such as
fine-grained behaviors, interactions, and overall summarized captions (i.e.,
"what") from videos, associated with "where", is highly-desired for
comprehensive video analysis. Thus motivated, we introduce Semantic
Multi-Object Tracking (SMOT), that aims to estimate object trajectories and
meanwhile understand semantic details of associated trajectories including
instance captions, instance interactions, and overall video captions,
integrating "where" and "what" for tracking. In order to foster the exploration
of SMOT, we propose BenSMOT, a large-scale Benchmark for Semantic MOT.
Specifically, BenSMOT comprises 3,292 videos with 151K frames, covering various
scenarios for semantic tracking of humans. BenSMOT provides annotations for the
trajectories of targets, along with associated instance captions in natural
language, instance interactions, and overall caption for each video sequence.
To our best knowledge, BenSMOT is the first publicly available benchmark for
SMOT. Besides, to encourage future research, we present a novel tracker named
SMOTer, which is specially designed and end-to-end trained for SMOT, showing
promising performance. By releasing BenSMOT, we expect to go beyond
conventional MOT by predicting "where" and "what" for SMOT, opening up a new
direction in tracking for video understanding. Our BenSMOT and SMOTer will be
released.
- Abstract(参考訳): 現在のマルチオブジェクト追跡(MOT)は、ビデオ中のターゲット(つまり「場所」)の軌跡を予測することを目的としている。
しかし、単に "where" を知るだけでは、多くの重要なアプリケーションでは不十分である。
比較として、きめ細かな振る舞い、相互作用、そして全体的な要約されたキャプション(すなわち「どこ」に関連付けられたビデオの「何」)といった意味理解は、包括的ビデオ分析に強く望まれる。
そこで本研究では,セマンティック・マルチオブジェクト・トラッキング (SMOT) を導入し,オブジェクトの軌跡を推定し,関連するトラジェクトリの意味的詳細を理解するとともに,インスタンスキャプション,インスタンスインタラクション,ビデオキャプション全体を含むセマンティック・マルチオブジェクト・トラッキング(SMOT)を導入し,トラッキングのための"where"と"What"を統合した。
SMOTの探索を促進するため,大規模なセマンティックMOTベンチマークであるBenSMOTを提案する。
具体的には、BenSMOTは3,292本のビデオと151Kフレームで構成され、人間のセマンティックトラッキングのさまざまなシナリオをカバーしている。
BenSMOTは、自然言語の関連するインスタンスキャプション、インスタンスインタラクション、各ビデオシーケンスの全体的なキャプションと共に、ターゲットの軌跡に対するアノテーションを提供する。
私たちの知る限り、BenSMOTはSMOTの最初の公開ベンチマークです。
また,今後の研究を奨励するためにSMOTerという新しいトラッカーを提案し,SMOTのために特別に設計し,エンドツーエンドで訓練し,有望な性能を示す。
BenSMOTのリリースによって、私たちは従来のMOTを超えて、SMOTの"where"と"What"を予測し、ビデオ理解のための新たな方向性を開くことを期待しています。
BenSMOTとSMOTerはリリースされます。
関連論文リスト
- Enhanced Kalman with Adaptive Appearance Motion SORT for Grounded Generic Multiple Object Tracking [0.08333024746293495]
Grounded-GMOTは、ユーザーが自然言語記述子を通じてビデオ内の複数のジェネリックオブジェクトを追跡することができる革新的なトラッキングパラダイムである。
コントリビューションはG2MOTデータセットの導入から始まり、多様なジェネリックオブジェクトを特徴とするビデオのコレクションを含む。
そこで本研究では,視覚的外観を動作キューと効果的に統合するだけでなく,カルマンフィルタを改良した新しいトラッキング手法KAM-SORTを提案する。
論文 参考訳(メタデータ) (2024-10-11T20:38:17Z) - Tracking Anything in High Quality [63.63653185865726]
HQTrackは高品質なビデオ追跡のためのフレームワークだ。
ビデオマルチオブジェクトセグメンタ(VMOS)とマスクリファインダ(MR)で構成されている。
論文 参考訳(メタデータ) (2023-07-26T06:19:46Z) - Z-GMOT: Zero-shot Generic Multiple Object Tracking [8.878331472995498]
マルチオブジェクト追跡(MOT)は、事前知識や事前定義されたカテゴリに依存するような制限に直面している。
これらの問題に対処するため、ジェネリック・マルチプル・オブジェクト・トラッキング(GMOT)が代替アプローチとして登場した。
我々は,初期バウンディングボックスや事前定義されたカテゴリを必要とせずに,テキストに表示されるカテゴリからオブジェクトを追跡する,最先端追跡ソリューションである$mathttZ-GMOT$を提案する。
論文 参考訳(メタデータ) (2023-05-28T06:44:33Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-06T18:50:06Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - MOTChallenge: A Benchmark for Single-Camera Multiple Target Tracking [72.76685780516371]
単カメラ多目的追跡(MOT)のためのベンチマークMOTChallengeを提案する。
このベンチマークは、歩行者がトラッキングコミュニティで最も研究されているオブジェクトであるため、複数の人を追跡することに重点を置いている。
我々は,最先端トラッカーの分類と広い誤差解析を行う。
論文 参考訳(メタデータ) (2020-10-15T06:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。