論文の概要: ARTrackV2: Prompting Autoregressive Tracker Where to Look and How to
Describe
- arxiv url: http://arxiv.org/abs/2312.17133v3
- Date: Tue, 13 Feb 2024 11:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:55:53.405855
- Title: ARTrackV2: Prompting Autoregressive Tracker Where to Look and How to
Describe
- Title(参考訳): ARTrackV2: 自動回帰トラッカーの表示方法と説明方法
- Authors: Yifan Bai, Zeyang Zhao, Yihong Gong, Xing Wei
- Abstract要約: ARTrackV2は、追跡の2つの重要な側面、すなわち、どこを見るか(ローカライゼーション)と、ターゲットオブジェクトをビデオフレーム間でどのように記述するか(外観分析)の2点を統合する。
前身のARTrackV2の基礎の上に構築されたARTrackV2は、オブジェクトの軌跡を読み出し、その外観を自己回帰的に「見直す」ために統一された生成フレームワークを導入することで、概念を拡張した。
- 参考スコア(独自算出の注目度): 28.220772612602104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ARTrackV2, which integrates two pivotal aspects of tracking:
determining where to look (localization) and how to describe (appearance
analysis) the target object across video frames. Building on the foundation of
its predecessor, ARTrackV2 extends the concept by introducing a unified
generative framework to "read out" object's trajectory and "retell" its
appearance in an autoregressive manner. This approach fosters a time-continuous
methodology that models the joint evolution of motion and visual features,
guided by previous estimates. Furthermore, ARTrackV2 stands out for its
efficiency and simplicity, obviating the less efficient intra-frame
autoregression and hand-tuned parameters for appearance updates. Despite its
simplicity, ARTrackV2 achieves state-of-the-art performance on prevailing
benchmark datasets while demonstrating remarkable efficiency improvement. In
particular, ARTrackV2 achieves AO score of 79.5\% on GOT-10k, and AUC of 86.1\%
on TrackingNet while being $3.6 \times$ faster than ARTrack. The code will be
released.
- Abstract(参考訳): ARTrackV2は、追跡の2つの重要な側面、すなわち、どこを見るか(ローカライゼーション)と、ターゲットオブジェクトをビデオフレーム間でどのように記述するか(外観分析)の2点を統合する。
artrackv2は、前者の基盤を基盤として、オブジェクトの軌跡を「読み出し」し、その外観を自己回帰的に「書き直す」ための統一的な生成フレームワークを導入することで、概念を拡張している。
このアプローチは、動きと視覚的特徴の合同進化をモデル化する時間連続的な方法論を育む。
さらに、ARTrackV2はその効率性と単純さで際立つもので、フレーム内オートレグレッションの低さと外観更新のための手動パラメータを回避している。
そのシンプルさにもかかわらず、artrackv2は、既存のベンチマークデータセットで最先端のパフォーマンスを実現し、優れた効率性を示している。
特にARTrackV2は、GOT-10kで79.5\%、TrackingNetで86.1\%のAOスコアを達成し、ARTrackより3.6 \times$速い。
コードはリリースされます。
関連論文リスト
- Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - RTracker: Recoverable Tracking via PN Tree Structured Memory [71.05904715104411]
本稿では,木構造メモリを用いてトラッカーと検出器を動的に関連付け,自己回復を可能にするRTrackerを提案する。
具体的には,正負と負のターゲットサンプルを時系列に保存し,維持する正負のツリー構造メモリを提案する。
我々の中核となる考え方は、正と負の目標カテゴリーの支持サンプルを用いて、目標損失の信頼性評価のための相対的距離に基づく基準を確立することである。
論文 参考訳(メタデータ) (2024-03-28T08:54:40Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - OneTracker: Unifying Visual Object Tracking with Foundation Models and Efficient Tuning [33.521077115333696]
我々は、OneTrackerと呼ばれる様々なトラッキングタスクを統合するための一般的なフレームワークを提案する。
OneTrackerは最初に、Foundation Trackerと呼ばれるRGBトラッカーで大規模な事前トレーニングを行う。
次に、他のモダリティ情報をプロンプトとみなし、Foundation Tracker上にPrompt Trackerを構築する。
論文 参考訳(メタデータ) (2024-03-14T17:59:13Z) - BEVTrack: A Simple and Strong Baseline for 3D Single Object Tracking in Bird's-Eye View [56.77287041917277]
3Dシングルオブジェクトトラッキング(SOT)はコンピュータビジョンの基本課題であり、自律運転のようなアプリケーションに不可欠なことを証明している。
本稿では,単純で効果的なベースライン手法であるBEVTrackを提案する。
Bird's-Eye View (BEV) における目標運動を推定して追跡を行うことにより、BEVTrackは、ネットワーク設計、トレーニング目標、トラッキングパイプラインなど、様々な側面から驚くほどの単純さを示しながら、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-05T12:42:26Z) - Target-Aware Tracking with Long-term Context Attention [8.20858704675519]
長期的コンテキストアテンション(LCA)モジュールは、長期的フレームからターゲットとそのコンテキストについて広範な情報融合を行うことができる。
LCAは、類似したオブジェクトや複雑な背景の干渉を排除するために、以前のフレームからターゲット状態を使用する。
トラッカーは, 71.1%のAUC, 89.3%のNP, 73.0%のAOをLaSOT, TrackingNet, GOT-10kで実現した。
論文 参考訳(メタデータ) (2023-02-27T14:40:58Z) - Context-aware Visual Tracking with Joint Meta-updating [11.226947525556813]
本稿では,シーケンス全体に沿った情報を活用することで,両ブランチを共同でメタ更新する,表現空間上のトラッカーを最適化するコンテキスト認識追跡モデルを提案する。
提案手法は,VOT2018におけるEAOスコアの0.514を40FPSの速度で達成し,基礎となるトラッカーの精度とロバスト性を向上できることを示す。
論文 参考訳(メタデータ) (2022-04-04T14:16:00Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。