論文の概要: ODTrack: Online Dense Temporal Token Learning for Visual Tracking
- arxiv url: http://arxiv.org/abs/2401.01686v1
- Date: Wed, 3 Jan 2024 11:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 14:25:29.923340
- Title: ODTrack: Online Dense Temporal Token Learning for Visual Tracking
- Title(参考訳): ODTrack: ビジュアルトラッキングのためのオンラインDense Temporal Token Learning
- Authors: Yaozong Zheng, Bineng Zhong, Qihua Liang, Zhiyi Mo, Shengping Zhang,
Xianxian Li
- Abstract要約: ODTrackはビデオレベルのトラッキングパイプラインで、オンライントークンの伝搬方法でビデオフレームのコンテキスト関係を密に関連付ける。
リアルタイムの速度で実行しながら、7つのベンチマークで新しい itSOTA パフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 22.628561792412686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online contextual reasoning and association across consecutive video frames
are critical to perceive instances in visual tracking. However, most current
top-performing trackers persistently lean on sparse temporal relationships
between reference and search frames via an offline mode. Consequently, they can
only interact independently within each image-pair and establish limited
temporal correlations. To alleviate the above problem, we propose a simple,
flexible and effective video-level tracking pipeline, named \textbf{ODTrack},
which densely associates the contextual relationships of video frames in an
online token propagation manner. ODTrack receives video frames of arbitrary
length to capture the spatio-temporal trajectory relationships of an instance,
and compresses the discrimination features (localization information) of a
target into a token sequence to achieve frame-to-frame association. This new
solution brings the following benefits: 1) the purified token sequences can
serve as prompts for the inference in the next video frame, whereby past
information is leveraged to guide future inference; 2) the complex online
update strategies are effectively avoided by the iterative propagation of token
sequences, and thus we can achieve more efficient model representation and
computation. ODTrack achieves a new \textit{SOTA} performance on seven
benchmarks, while running at real-time speed. Code and models are available at
\url{https://github.com/GXNU-ZhongLab/ODTrack}.
- Abstract(参考訳): 連続するビデオフレーム間のオンラインコンテキスト推論と関連性は、視覚的トラッキングのインスタンスを知覚するために重要である。
しかし、現在のほとんどのトップパフォーマンストラッカーは、オフラインモードを介して参照フレームと検索フレームの間の疎時間関係に永続的に依存している。
その結果、各画像対内で独立に相互作用し、時間的相関が限定される。
上記の問題を解決するために,ビデオフレームのコンテキスト関係をオンライントークン伝搬方式で密結合する,シンプルで柔軟で効果的なビデオレベルのトラッキングパイプライン \textbf{odtrack} を提案する。
odtrackは任意の長さのビデオフレームを受け取り、インスタンスの時空間的軌道関係をキャプチャし、ターゲットの識別特徴(局所化情報)をトークンシーケンスに圧縮してフレーム対フレーム関連付けを実現する。
この新しいソリューションは以下の利点をもたらす。
1) 精製されたトークンシーケンスは、次のビデオフレームにおける推論のプロンプトとして機能し、過去の情報を活用して将来の推論を導出することができる。
2) 複雑なオンライン更新戦略はトークン列の反復伝播によって効果的に回避され, より効率的なモデル表現と計算が可能となる。
ODTrackは、リアルタイムで実行しながら、7つのベンチマークで新しい‘textit{SOTA}パフォーマンスを達成する。
コードとモデルは \url{https://github.com/gxnu-zhonglab/odtrack} で利用可能である。
関連論文リスト
- ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である
既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。
本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。
我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文 参考訳(メタデータ) (2024-02-27T07:34:08Z) - Explicit Visual Prompts for Visual Object Tracking [23.561539973210248]
textbfEVPTrackは、連続するフレーム間の明示的な視覚的プロンプトを利用するビジュアルトラッキングフレームワークである。
我々は,明示的情報とマルチスケール情報の両方を活用することで,リアルタイムに競争性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-01-06T07:12:07Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Real-time Online Multi-Object Tracking in Compressed Domain [66.40326768209]
近年,Multi-Object Tracking (MOT) 手法が望まれるトラッキング性能を実現している。
隣接するフレームが極めて関連性が高く冗長であるという事実に着想を得て、フレームをキーフレームと非キーフレームに分割する。
私たちのトラッカーは、同等のトラッカー性能を維持しながら、約6倍高速です。
論文 参考訳(メタデータ) (2022-04-05T09:47:24Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Video Annotation for Visual Tracking via Selection and Refinement [74.08109740917122]
ビデオシーケンスのバウンディングボックスアノテーションを容易にするための新しいフレームワークを提案する。
目標位置の時間的コヒーレンスを捉えることのできる時間的アセスメントネットワークを提案する。
また、選択したトラッキング結果をさらに強化するために、ビジュアルジオメトリ・リファインメント・ネットワークが設計されている。
論文 参考訳(メタデータ) (2021-08-09T05:56:47Z) - Continuity-Discrimination Convolutional Neural Network for Visual Object
Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。
この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。
不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。