論文の概要: ProContEXT: Exploring Progressive Context Transformer for Tracking
- arxiv url: http://arxiv.org/abs/2210.15511v1
- Date: Thu, 27 Oct 2022 14:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:18:26.624103
- Title: ProContEXT: Exploring Progressive Context Transformer for Tracking
- Title(参考訳): ProContEXT: トラッキングのためのプログレッシブコンテキストトランスフォーマーの探索
- Authors: Jin-Peng Lan, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Xu Bao,
Wangmeng Xiang, Yifeng Geng, Xuansong Xie
- Abstract要約: 既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。
これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。
私たちはプログレッシブコンテキストでフレームワークを改訂しました。
Transformer Tracker (ProContEXT) は空間的・時間的文脈を利用して物体の動きの軌跡を予測する。
- 参考スコア(独自算出の注目度): 20.35886416084831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Visual Object Tracking (VOT) only takes the target area in the first
frame as a template. This causes tracking to inevitably fail in fast-changing
and crowded scenes, as it cannot account for changes in object appearance
between frames. To this end, we revamped the tracking framework with
Progressive Context Encoding Transformer Tracker (ProContEXT), which coherently
exploits spatial and temporal contexts to predict object motion trajectories.
Specifically, ProContEXT leverages a context-aware self-attention module to
encode the spatial and temporal context, refining and updating the multi-scale
static and dynamic templates to progressively perform accurate tracking. It
explores the complementary between spatial and temporal context, raising a new
pathway to multi-context modeling for transformer-based trackers. In addition,
ProContEXT revised the token pruning technique to reduce computational
complexity. Extensive experiments on popular benchmark datasets such as GOT-10k
and TrackingNet demonstrate that the proposed ProContEXT achieves
state-of-the-art performance.
- Abstract(参考訳): 既存のVisual Object Tracking (VOT)は、テンプレートとして第1フレームのターゲット領域のみを取る。
これにより、フレーム間のオブジェクトの外観の変化を考慮できないため、素早く変化し、混雑するシーンでトラッキングが必然的に失敗する。
そこで我々は,プログレッシブ・コンテクスト・エンコーディング・トランスフォーマー(ProContEXT)によるトラッキング・フレームワークを改良し,空間的・時間的コンテキストを利用して物体の動きの軌跡を予測する。
具体的には、procontextはコンテキスト対応のセルフアテンションモジュールを使用して、空間的および時間的コンテキストをエンコードし、マルチスケールの静的および動的テンプレートを改良および更新し、正確なトラッキングを行う。
時間的文脈と時間的文脈の相補性を探求し、トランスフォーマーベースのトラッカーのためのマルチコンテキストモデリングへの新しい経路を提起する。
さらに、ProContEXTは計算複雑性を低減するためにトークンプルーニング手法を改訂した。
GOT-10kやTrackingNetのような一般的なベンチマークデータセットに対する大規模な実験は、提案されたProContEXTが最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。
我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。
トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-07T09:48:13Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - PTSEFormer: Progressive Temporal-Spatial Enhanced TransFormer Towards
Video Object Detection [28.879484515844375]
統合強化のための時間情報と空間情報の両方を導入するための進歩的な方法を導入する。
PTSEFormerは、ImageNet VIDデータセットで88.1%のmAPを達成しながら、重い後処理手順を避けるために、エンドツーエンドのスタイルに従っている。
論文 参考訳(メタデータ) (2022-09-06T06:32:57Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Context-aware Visual Tracking with Joint Meta-updating [11.226947525556813]
本稿では,シーケンス全体に沿った情報を活用することで,両ブランチを共同でメタ更新する,表現空間上のトラッカーを最適化するコンテキスト認識追跡モデルを提案する。
提案手法は,VOT2018におけるEAOスコアの0.514を40FPSの速度で達成し,基礎となるトラッカーの精度とロバスト性を向上できることを示す。
論文 参考訳(メタデータ) (2022-04-04T14:16:00Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual
Tracking [47.205979159070445]
個々のビデオフレームをブリッジし、堅牢なオブジェクト追跡のためのトランスフォーマーアーキテクチャを通じて、時間的コンテキストを探索する。
自然言語処理タスクにおける変換器の古典的な使用とは異なり、エンコーダとデコーダを2つの並列分岐に分離する。
本手法は,有意な追跡ベンチマークに関する最新の記録を複数設定する。
論文 参考訳(メタデータ) (2021-03-22T09:20:05Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。