論文の概要: Towards Real-World Visual Tracking with Temporal Contexts
- arxiv url: http://arxiv.org/abs/2308.10330v1
- Date: Sun, 20 Aug 2023 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:10:39.727574
- Title: Towards Real-World Visual Tracking with Temporal Contexts
- Title(参考訳): 時間的文脈を用いた実世界の視覚追跡に向けて
- Authors: Ziang Cao, Ziyuan Huang, Liang Pan, Shiwei Zhang, Ziwei Liu, Changhong
Fu
- Abstract要約: 時間的文脈を効率的に活用できる2段階フレームワーク(TCTrack)を提案する。
これに基づいて、現実世界の視覚的トラッキング、すなわちTCTrack++のためのより強力なバージョンを提案する。
特徴抽出のために,空間的特徴を高めるために注意に基づく時間適応的畳み込みを提案する。
類似性マップの改良のために,時間的知識を効率的に符号化する適応型時間的変換器を導入する。
- 参考スコア(独自算出の注目度): 64.7981374129495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual tracking has made significant improvements in the past few decades.
Most existing state-of-the-art trackers 1) merely aim for performance in ideal
conditions while overlooking the real-world conditions; 2) adopt the
tracking-by-detection paradigm, neglecting rich temporal contexts; 3) only
integrate the temporal information into the template, where temporal contexts
among consecutive frames are far from being fully utilized. To handle those
problems, we propose a two-level framework (TCTrack) that can exploit temporal
contexts efficiently. Based on it, we propose a stronger version for real-world
visual tracking, i.e., TCTrack++. It boils down to two levels: features and
similarity maps. Specifically, for feature extraction, we propose an
attention-based temporally adaptive convolution to enhance the spatial features
using temporal information, which is achieved by dynamically calibrating the
convolution weights. For similarity map refinement, we introduce an adaptive
temporal transformer to encode the temporal knowledge efficiently and decode it
for the accurate refinement of the similarity map. To further improve the
performance, we additionally introduce a curriculum learning strategy. Also, we
adopt online evaluation to measure performance in real-world conditions.
Exhaustive experiments on 8 wellknown benchmarks demonstrate the superiority of
TCTrack++. Real-world tests directly verify that TCTrack++ can be readily used
in real-world applications.
- Abstract(参考訳): ビジュアルトラッキングはここ数十年で大幅に改善されている。
既存の最先端トラッカー
1) 現実の状況を見渡しながら,理想の条件下でのパフォーマンスを目標とすること。
2) 追跡・検出パラダイムを採用して,豊富な時間的文脈を無視する。
3)時間情報はテンプレートにのみ統合され,連続するフレーム間の時間的コンテキストが十分に活用されない。
これらの問題に対処するために、時間的文脈を効率的に活用できる2段階フレームワーク(TCTrack)を提案する。
それに基づいて,実世界のビジュアルトラッキング,すなわちtctrack++のより強力なバージョンを提案する。
特徴と類似性マップという2つのレベルに分けられる。
具体的には、特徴抽出のために、時間的情報を用いて空間的特徴を高めるために注意に基づく時間的適応的畳み込みを提案する。
類似度マップの精度向上のために,時間的知識を効率的に符号化し,復号化するための適応時間変換器を導入する。
さらに,その性能向上のために,カリキュラム学習戦略を導入する。
また,実環境における性能評価にオンライン評価を適用した。
8つのよく知られたベンチマークでの発掘実験は、TCTrack++の優位性を示している。
実世界のテストは、TCTrack++が現実世界のアプリケーションで簡単に使えることを直接検証する。
関連論文リスト
- Temporal Adaptive RGBT Tracking with Modality Prompt [10.431364270734331]
RGBTトラッキングは、ロボティクス、処理、監視、自動運転など様々な分野で広く使われている。
既存のRGBTトラッカーは、テンプレートと検索領域の間の空間情報を十分に探索し、外観マッチング結果に基づいてターゲットを特定する。
これらのRGBTトラッカーは、時間的情報を無視したり、オンラインサンプリングやトレーニングを通じて利用したり、時間的情報を非常に限定的に利用している。
論文 参考訳(メタデータ) (2024-01-02T15:20:50Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - ProContEXT: Exploring Progressive Context Transformer for Tracking [20.35886416084831]
既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。
これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。
私たちはプログレッシブコンテキストでフレームワークを改訂しました。
Transformer Tracker (ProContEXT) は空間的・時間的文脈を利用して物体の動きの軌跡を予測する。
論文 参考訳(メタデータ) (2022-10-27T14:47:19Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - TCTrack: Temporal Contexts for Aerial Tracking [38.87248176223548]
TCTrackは、航空追跡のための時間的コンテキストを完全に活用するための包括的なフレームワークである。
特徴抽出のために,空間的特徴を高めるために,オンライン時間適応型畳み込みを提案する。
類似性マップの改良のために,まず時間的知識をメモリ効率のよい方法で効果的に符号化する適応時間変換器を提案する。
論文 参考訳(メタデータ) (2022-03-03T18:04:20Z) - Predictive Visual Tracking: A New Benchmark and Baseline Approach [27.87099869398515]
実世界のシナリオでは、画像ストリームのオンボード処理時間が必然的に追跡結果と実世界の状態との間に不一致をもたらす。
既存のビジュアルトラッキングベンチマークは、一般的にトラッカーをオフラインで実行し、評価においてそのような遅延を無視する。
本研究は,より現実的な遅延認識トラッキング問題に対処することを目的としている。
論文 参考訳(メタデータ) (2021-03-08T01:50:05Z) - Deep Learning based Virtual Point Tracking for Real-Time Target-less
Dynamic Displacement Measurement in Railway Applications [0.0]
ディープラーニング技術とドメイン知識を組み込んだリアルタイムターゲットレス動的変位測定のための仮想ポイントトラッキングを提案します。
そこで本研究では, 運転中にレールの車輪の水平変位を計測した鉄道への適用例を示す。
論文 参考訳(メタデータ) (2021-01-17T16:19:47Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。