論文の概要: Exploring Enhanced Contextual Information for Video-Level Object Tracking
- arxiv url: http://arxiv.org/abs/2412.11023v1
- Date: Sun, 15 Dec 2024 02:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:36.575365
- Title: Exploring Enhanced Contextual Information for Video-Level Object Tracking
- Title(参考訳): 映像レベル物体追跡のための拡張文脈情報探索
- Authors: Ben Kang, Xin Chen, Simiao Lai, Yang Liu, Yi Liu, Dong Wang,
- Abstract要約: 映像レベルのコンテキスト情報は、視覚的オブジェクト追跡にとってますます重要になっている。
既存のメソッドは通常、この情報を伝えるためにいくつかのトークンを使用する。
我々はMCITrackと呼ばれる新しいビデオレベルのビジュアルオブジェクト追跡フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.64050157604139
- License:
- Abstract: Contextual information at the video level has become increasingly crucial for visual object tracking. However, existing methods typically use only a few tokens to convey this information, which can lead to information loss and limit their ability to fully capture the context. To address this issue, we propose a new video-level visual object tracking framework called MCITrack. It leverages Mamba's hidden states to continuously record and transmit extensive contextual information throughout the video stream, resulting in more robust object tracking. The core component of MCITrack is the Contextual Information Fusion module, which consists of the mamba layer and the cross-attention layer. The mamba layer stores historical contextual information, while the cross-attention layer integrates this information into the current visual features of each backbone block. This module enhances the model's ability to capture and utilize contextual information at multiple levels through deep integration with the backbone. Experiments demonstrate that MCITrack achieves competitive performance across numerous benchmarks. For instance, it gets 76.6% AUC on LaSOT and 80.0% AO on GOT-10k, establishing a new state-of-the-art performance. Code and models are available at https://github.com/kangben258/MCITrack.
- Abstract(参考訳): 映像レベルのコンテキスト情報は、視覚的オブジェクト追跡にとってますます重要になっている。
しかしながら、既存のメソッドは通常、この情報を伝えるためにいくつかのトークンしか使用せず、情報損失を招き、コンテキストを完全にキャプチャする能力を制限する可能性がある。
そこで本研究では,MCITrackというビデオレベルのビジュアルオブジェクト追跡フレームワークを提案する。
マンバの隠された状態を利用して、ビデオストリーム全体を通して広範囲のコンテキスト情報を連続的に記録し、送信することで、より堅牢なオブジェクト追跡を実現する。
MCITrackのコアコンポーネントはContextual Information Fusionモジュールで、mamba層とクロスアテンション層で構成されている。
マンバ層は歴史的文脈情報を記憶し、クロスアテンション層はこれらの情報を各バックボーンブロックの現在の視覚的特徴に統合する。
このモジュールは、バックボーンとの深い統合を通じて、複数のレベルでコンテキスト情報をキャプチャし、活用するモデルの能力を強化する。
実験により、MCITrackは多くのベンチマークで競合性能を達成している。
例えば、LaSOTでは76.6%のAUC、GOT-10kでは80.0%のAOを獲得し、新しい最先端のパフォーマンスを確立している。
コードとモデルはhttps://github.com/kangben258/MCITrack.comで入手できる。
関連論文リスト
- MambaLCT: Boosting Tracking via Long-term Context State Space Model [19.893090586286995]
本研究では,第1フレームから第1フレームから第2フレームへの目標変動キューの構築と利用を行い,ロバストなトラッキングを実現するMambaLCTを提案する。
MambaLCTは、リアルタイム実行速度を維持しながら、6つのベンチマークで新しいSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-12-18T08:53:52Z) - VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation [31.167405688707575]
ビデオフレーム上でのインスタンスレベルの視覚分析のためのフレームワークを提案する。
オブジェクト検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングを同時に行うことができる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットを用いて広範に評価する。
論文 参考訳(メタデータ) (2023-11-02T04:32:24Z) - Tracking Anything in High Quality [63.63653185865726]
HQTrackは高品質なビデオ追跡のためのフレームワークだ。
ビデオマルチオブジェクトセグメンタ(VMOS)とマスクリファインダ(MR)で構成されている。
論文 参考訳(メタデータ) (2023-07-26T06:19:46Z) - DIVOTrack: A Novel Dataset and Baseline Method for Cross-View
Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。
私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。
さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T14:10:42Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z) - Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2020-07-14T08:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。