論文の概要: Explicit Visual Prompts for Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2401.03142v1
- Date: Sat, 6 Jan 2024 07:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 20:24:27.954742
- Title: Explicit Visual Prompts for Visual Object Tracking
- Title(参考訳): ビジュアルオブジェクトトラッキングのための明示的なビジュアルプロンプト
- Authors: Liangtao Shi, Bineng Zhong, Qihua Liang, Ning Li, Shengping Zhang,
Xianxian Li
- Abstract要約: textbfEVPTrackは、連続するフレーム間の明示的な視覚的プロンプトを利用するビジュアルトラッキングフレームワークである。
我々は,明示的情報とマルチスケール情報の両方を活用することで,リアルタイムに競争性能を実現することができることを示す。
- 参考スコア(独自算出の注目度): 23.561539973210248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to effectively exploit spatio-temporal information is crucial to capture
target appearance changes in visual tracking. However, most deep learning-based
trackers mainly focus on designing a complicated appearance model or template
updating strategy, while lacking the exploitation of context between
consecutive frames and thus entailing the \textit{when-and-how-to-update}
dilemma. To address these issues, we propose a novel explicit visual prompts
framework for visual tracking, dubbed \textbf{EVPTrack}. Specifically, we
utilize spatio-temporal tokens to propagate information between consecutive
frames without focusing on updating templates. As a result, we cannot only
alleviate the challenge of \textit{when-to-update}, but also avoid the
hyper-parameters associated with updating strategies. Then, we utilize the
spatio-temporal tokens to generate explicit visual prompts that facilitate
inference in the current frame. The prompts are fed into a transformer encoder
together with the image tokens without additional processing. Consequently, the
efficiency of our model is improved by avoiding \textit{how-to-update}. In
addition, we consider multi-scale information as explicit visual prompts,
providing multiscale template features to enhance the EVPTrack's ability to
handle target scale changes. Extensive experimental results on six benchmarks
(i.e., LaSOT, LaSOT\rm $_{ext}$, GOT-10k, UAV123, TrackingNet, and TNL2K.)
validate that our EVPTrack can achieve competitive performance at a real-time
speed by effectively exploiting both spatio-temporal and multi-scale
information. Code and models are available at
https://github.com/GXNU-ZhongLab/EVPTrack.
- Abstract(参考訳): 時空間情報を効果的に活用するには,視覚追跡の目標外観変化の把握が不可欠である。
しかし、多くのディープラーニングベースのトラッカーは、主に複雑な外観モデルやテンプレート更新戦略の設計に重点を置いているが、連続するフレーム間のコンテキストの活用に欠けており、従って \textit{when-and-how-to-update} ジレンマを伴っている。
これらの問題に対処するため,視覚追跡のための新しい明示的な視覚プロンプトフレームワーク,「textbf{EVPTrack}」を提案する。
具体的には,テンプレート更新に焦点を合わせることなく,連続フレーム間の情報伝達に時空間トークンを利用する。
その結果、 \textit{when-to-update} の課題を軽減するだけでなく、更新戦略に関連するハイパーパラメータを回避することができる。
次に、時空間トークンを用いて、現在のフレームでの推論を容易にする明示的な視覚的プロンプトを生成する。
プロンプトは、追加処理なしで、画像トークンと共にトランスフォーマエンコーダに供給される。
その結果、モデルの効率性は \textit{how-to-update} を避けることで向上した。
さらに,マルチスケール情報を明示的な視覚的プロンプトとみなし,EVPTrackの目標スケール変更処理能力を高めるためのマルチスケールテンプレート機能を提供する。
6つのベンチマーク(LaSOT, LaSOT\rm $_{ext}$, GOT-10k, UAV123, TrackingNet, TNL2K)の大規模な実験結果。
) 時空間情報とマルチスケール情報の両方を効果的に活用することにより,evptrackがリアルタイム速度で競争性能を発揮できることを検証する。
コードとモデルはhttps://github.com/gxnu-zhonglab/evptrackで入手できる。
関連論文リスト
- KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers [55.46413719810273]
リッチ時間情報は、視覚追跡における複雑なターゲットの出現に不可欠である。
提案手法は,6つの一般的な追跡ベンチマークにおいてトラッカーの性能を向上させる。
論文 参考訳(メタデータ) (2024-03-15T02:39:26Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - ODTrack: Online Dense Temporal Token Learning for Visual Tracking [22.628561792412686]
ODTrackはビデオレベルのトラッキングパイプラインで、オンライントークンの伝搬方法でビデオフレームのコンテキスト関係を密に関連付ける。
リアルタイムの速度で実行しながら、7つのベンチマークで新しい itSOTA パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-01-03T11:44:09Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - ProContEXT: Exploring Progressive Context Transformer for Tracking [20.35886416084831]
既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。
これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。
私たちはプログレッシブコンテキストでフレームワークを改訂しました。
Transformer Tracker (ProContEXT) は空間的・時間的文脈を利用して物体の動きの軌跡を予測する。
論文 参考訳(メタデータ) (2022-10-27T14:47:19Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Context-aware Visual Tracking with Joint Meta-updating [11.226947525556813]
本稿では,シーケンス全体に沿った情報を活用することで,両ブランチを共同でメタ更新する,表現空間上のトラッカーを最適化するコンテキスト認識追跡モデルを提案する。
提案手法は,VOT2018におけるEAOスコアの0.514を40FPSの速度で達成し,基礎となるトラッカーの精度とロバスト性を向上できることを示す。
論文 参考訳(メタデータ) (2022-04-04T14:16:00Z) - STMTrack: Template-free Visual Tracking with Space-time Memory Networks [42.06375415765325]
テンプレート更新機構を持つ既存のトラッカーは、競争性能を達成するために、時間を要する数値最適化と複雑な手設計戦略に依存している。
本稿では,ターゲットに関する歴史的情報を十分に活用することのできる,時空メモリネットワーク上に構築した新しいトラッキングフレームワークを提案する。
具体的には、ターゲットの履歴情報を記憶して、トラッカーを現在のフレーム内の最も情報性の高い領域に集中させる新しい記憶機構を導入する。
論文 参考訳(メタデータ) (2021-04-01T08:10:56Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。