論文の概要: Towards Real-World Visual Tracking with Temporal Contexts
- arxiv url: http://arxiv.org/abs/2308.10330v1
- Date: Sun, 20 Aug 2023 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:10:39.727574
- Title: Towards Real-World Visual Tracking with Temporal Contexts
- Title(参考訳): 時間的文脈を用いた実世界の視覚追跡に向けて
- Authors: Ziang Cao, Ziyuan Huang, Liang Pan, Shiwei Zhang, Ziwei Liu, Changhong
Fu
- Abstract要約: 時間的文脈を効率的に活用できる2段階フレームワーク(TCTrack)を提案する。
これに基づいて、現実世界の視覚的トラッキング、すなわちTCTrack++のためのより強力なバージョンを提案する。
特徴抽出のために,空間的特徴を高めるために注意に基づく時間適応的畳み込みを提案する。
類似性マップの改良のために,時間的知識を効率的に符号化する適応型時間的変換器を導入する。
- 参考スコア(独自算出の注目度): 64.7981374129495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual tracking has made significant improvements in the past few decades.
Most existing state-of-the-art trackers 1) merely aim for performance in ideal
conditions while overlooking the real-world conditions; 2) adopt the
tracking-by-detection paradigm, neglecting rich temporal contexts; 3) only
integrate the temporal information into the template, where temporal contexts
among consecutive frames are far from being fully utilized. To handle those
problems, we propose a two-level framework (TCTrack) that can exploit temporal
contexts efficiently. Based on it, we propose a stronger version for real-world
visual tracking, i.e., TCTrack++. It boils down to two levels: features and
similarity maps. Specifically, for feature extraction, we propose an
attention-based temporally adaptive convolution to enhance the spatial features
using temporal information, which is achieved by dynamically calibrating the
convolution weights. For similarity map refinement, we introduce an adaptive
temporal transformer to encode the temporal knowledge efficiently and decode it
for the accurate refinement of the similarity map. To further improve the
performance, we additionally introduce a curriculum learning strategy. Also, we
adopt online evaluation to measure performance in real-world conditions.
Exhaustive experiments on 8 wellknown benchmarks demonstrate the superiority of
TCTrack++. Real-world tests directly verify that TCTrack++ can be readily used
in real-world applications.
- Abstract(参考訳): ビジュアルトラッキングはここ数十年で大幅に改善されている。
既存の最先端トラッカー
1) 現実の状況を見渡しながら,理想の条件下でのパフォーマンスを目標とすること。
2) 追跡・検出パラダイムを採用して,豊富な時間的文脈を無視する。
3)時間情報はテンプレートにのみ統合され,連続するフレーム間の時間的コンテキストが十分に活用されない。
これらの問題に対処するために、時間的文脈を効率的に活用できる2段階フレームワーク(TCTrack)を提案する。
それに基づいて,実世界のビジュアルトラッキング,すなわちtctrack++のより強力なバージョンを提案する。
特徴と類似性マップという2つのレベルに分けられる。
具体的には、特徴抽出のために、時間的情報を用いて空間的特徴を高めるために注意に基づく時間的適応的畳み込みを提案する。
類似度マップの精度向上のために,時間的知識を効率的に符号化し,復号化するための適応時間変換器を導入する。
さらに,その性能向上のために,カリキュラム学習戦略を導入する。
また,実環境における性能評価にオンライン評価を適用した。
8つのよく知られたベンチマークでの発掘実験は、TCTrack++の優位性を示している。
実世界のテストは、TCTrack++が現実世界のアプリケーションで簡単に使えることを直接検証する。
関連論文リスト
- Local All-Pair Correspondence for Point Tracking [59.76186266230608]
ビデオシーケンス間の任意の点(TAP)を追跡するタスクのために設計された,高精度かつ効率的なモデルであるLocoTrackを紹介する。
LocoTrackは、すべてのTAP-Vidベンチマークで未整合の精度を実現し、現在の最先端の約6倍の速度で動作している。
論文 参考訳(メタデータ) (2024-07-22T06:49:56Z) - Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である
既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。
本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。
我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文 参考訳(メタデータ) (2024-02-27T07:34:08Z) - Temporal Adaptive RGBT Tracking with Modality Prompt [10.431364270734331]
RGBTトラッキングは、ロボティクス、処理、監視、自動運転など様々な分野で広く使われている。
既存のRGBTトラッカーは、テンプレートと検索領域の間の空間情報を十分に探索し、外観マッチング結果に基づいてターゲットを特定する。
これらのRGBTトラッカーは、時間的情報を無視したり、オンラインサンプリングやトレーニングを通じて利用したり、時間的情報を非常に限定的に利用している。
論文 参考訳(メタデータ) (2024-01-02T15:20:50Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - TCTrack: Temporal Contexts for Aerial Tracking [38.87248176223548]
TCTrackは、航空追跡のための時間的コンテキストを完全に活用するための包括的なフレームワークである。
特徴抽出のために,空間的特徴を高めるために,オンライン時間適応型畳み込みを提案する。
類似性マップの改良のために,まず時間的知識をメモリ効率のよい方法で効果的に符号化する適応時間変換器を提案する。
論文 参考訳(メタデータ) (2022-03-03T18:04:20Z) - Predictive Visual Tracking: A New Benchmark and Baseline Approach [27.87099869398515]
実世界のシナリオでは、画像ストリームのオンボード処理時間が必然的に追跡結果と実世界の状態との間に不一致をもたらす。
既存のビジュアルトラッキングベンチマークは、一般的にトラッカーをオフラインで実行し、評価においてそのような遅延を無視する。
本研究は,より現実的な遅延認識トラッキング問題に対処することを目的としている。
論文 参考訳(メタデータ) (2021-03-08T01:50:05Z) - Deep Learning based Virtual Point Tracking for Real-Time Target-less
Dynamic Displacement Measurement in Railway Applications [0.0]
ディープラーニング技術とドメイン知識を組み込んだリアルタイムターゲットレス動的変位測定のための仮想ポイントトラッキングを提案します。
そこで本研究では, 運転中にレールの車輪の水平変位を計測した鉄道への適用例を示す。
論文 参考訳(メタデータ) (2021-01-17T16:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。