論文の概要: ProContEXT: Exploring Progressive Context Transformer for Tracking
- arxiv url: http://arxiv.org/abs/2210.15511v4
- Date: Thu, 30 Mar 2023 06:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 17:50:45.208767
- Title: ProContEXT: Exploring Progressive Context Transformer for Tracking
- Title(参考訳): ProContEXT: トラッキングのためのプログレッシブコンテキストトランスフォーマーの探索
- Authors: Jin-Peng Lan, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Xu Bao,
Wangmeng Xiang, Yifeng Geng, Xuansong Xie
- Abstract要約: 既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。
これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。
私たちはプログレッシブコンテキストでフレームワークを改訂しました。
Transformer Tracker (ProContEXT) は空間的・時間的文脈を利用して物体の動きの軌跡を予測する。
- 参考スコア(独自算出の注目度): 20.35886416084831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Visual Object Tracking (VOT) only takes the target area in the first
frame as a template. This causes tracking to inevitably fail in fast-changing
and crowded scenes, as it cannot account for changes in object appearance
between frames. To this end, we revamped the tracking framework with
Progressive Context Encoding Transformer Tracker (ProContEXT), which coherently
exploits spatial and temporal contexts to predict object motion trajectories.
Specifically, ProContEXT leverages a context-aware self-attention module to
encode the spatial and temporal context, refining and updating the multi-scale
static and dynamic templates to progressively perform accurately tracking. It
explores the complementary between spatial and temporal context, raising a new
pathway to multi-context modeling for transformer-based trackers. In addition,
ProContEXT revised the token pruning technique to reduce computational
complexity. Extensive experiments on popular benchmark datasets such as GOT-10k
and TrackingNet demonstrate that the proposed ProContEXT achieves
state-of-the-art performance.
- Abstract(参考訳): 既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。
これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。
そこで我々は,プログレッシブ・コンテクスト・エンコーディング・トランスフォーマー(ProContEXT)によるトラッキング・フレームワークを改良し,空間的・時間的コンテキストを利用して物体の動きの軌跡を予測する。
具体的には、procontextはコンテキスト対応のセルフアテンションモジュールを使用して、空間的および時間的コンテキストをエンコードし、マルチスケールの静的および動的テンプレートを改良および更新し、正確なトラッキングを行う。
時間的文脈と時間的文脈の相補性を探求し、トランスフォーマーベースのトラッカーのためのマルチコンテキストモデリングへの新しい経路を提起する。
さらに、ProContEXTは計算複雑性を低減するためにトークンプルーニング手法を改訂した。
GOT-10kやTrackingNetのような一般的なベンチマークデータセットに対する大規模な実験は、提案されたProContEXTが最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers [55.46413719810273]
リッチ時間情報は、視覚追跡における複雑なターゲットの出現に不可欠である。
提案手法は,6つの一般的な追跡ベンチマークにおいてトラッカーの性能を向上させる。
論文 参考訳(メタデータ) (2024-03-15T02:39:26Z) - Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。
我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。
トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-07T09:48:13Z) - ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である
既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。
本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。
我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文 参考訳(メタデータ) (2024-02-27T07:34:08Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - PTSEFormer: Progressive Temporal-Spatial Enhanced TransFormer Towards
Video Object Detection [28.879484515844375]
統合強化のための時間情報と空間情報の両方を導入するための進歩的な方法を導入する。
PTSEFormerは、ImageNet VIDデータセットで88.1%のmAPを達成しながら、重い後処理手順を避けるために、エンドツーエンドのスタイルに従っている。
論文 参考訳(メタデータ) (2022-09-06T06:32:57Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Context-aware Visual Tracking with Joint Meta-updating [11.226947525556813]
本稿では,シーケンス全体に沿った情報を活用することで,両ブランチを共同でメタ更新する,表現空間上のトラッカーを最適化するコンテキスト認識追跡モデルを提案する。
提案手法は,VOT2018におけるEAOスコアの0.514を40FPSの速度で達成し,基礎となるトラッカーの精度とロバスト性を向上できることを示す。
論文 参考訳(メタデータ) (2022-04-04T14:16:00Z) - Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual
Tracking [47.205979159070445]
個々のビデオフレームをブリッジし、堅牢なオブジェクト追跡のためのトランスフォーマーアーキテクチャを通じて、時間的コンテキストを探索する。
自然言語処理タスクにおける変換器の古典的な使用とは異なり、エンコーダとデコーダを2つの並列分岐に分離する。
本手法は,有意な追跡ベンチマークに関する最新の記録を複数設定する。
論文 参考訳(メタデータ) (2021-03-22T09:20:05Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。