論文の概要: TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video
- arxiv url: http://arxiv.org/abs/2411.18671v1
- Date: Wed, 27 Nov 2024 17:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:28.834204
- Title: TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video
- Title(参考訳): TAPTRv3:ロングビデオにおける任意の点の空間的・時間的コンテキストフォスターロバスト追跡
- Authors: Jinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang,
- Abstract要約: 本稿では,TAPTRv2上に構築されたTAPTRv3について述べる。
TAPTRv3は、挑戦的なデータセットの大部分でTAPTRv2をはるかに上回り、最先端のパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 30.16638127979361
- License:
- Abstract: In this paper, we present TAPTRv3, which is built upon TAPTRv2 to improve its point tracking robustness in long videos. TAPTRv2 is a simple DETR-like framework that can accurately track any point in real-world videos without requiring cost-volume. TAPTRv3 improves TAPTRv2 by addressing its shortage in querying high quality features from long videos, where the target tracking points normally undergo increasing variation over time. In TAPTRv3, we propose to utilize both spatial and temporal context to bring better feature querying along the spatial and temporal dimensions for more robust tracking in long videos. For better spatial feature querying, we present Context-aware Cross-Attention (CCA), which leverages surrounding spatial context to enhance the quality of attention scores when querying image features. For better temporal feature querying, we introduce Visibility-aware Long-Temporal Attention (VLTA) to conduct temporal attention to all past frames while considering their corresponding visibilities, which effectively addresses the feature drifting problem in TAPTRv2 brought by its RNN-like long-temporal modeling. TAPTRv3 surpasses TAPTRv2 by a large margin on most of the challenging datasets and obtains state-of-the-art performance. Even when compared with methods trained with large-scale extra internal data, TAPTRv3 is still competitive.
- Abstract(参考訳): 本稿では,TAPTRv2上に構築されたTAPTRv3について述べる。
TAPTRv2は単純なDETRライクなフレームワークで、コストボリュームを必要とせずに現実世界のビデオの任意の点を正確に追跡できる。
TAPTRv3はTAPTRv2を改善し、長いビデオから高品質な機能のクエリが不足していることに対処する。
TAPTRv3では,空間的,時間的両方の文脈を利用して,時間的,空間的,時間的空間的な特徴クエリーを向上し,よりロバストなトラッキングを実現することを提案する。
空間的特徴クエリを改善するために,空間的コンテキストを活用したコンテキスト認識型クロスアテンション(CCA)を提案し,画像特徴を問合せする際の注意点の質を高める。
時間的特徴クエリを改善するため,RNNのような長期モデリングによって引き起こされるTAPTRv2の特徴漂流問題に効果的に対処し,すべての過去のフレームに対して時間的注意を払うために,可視性を考慮した長期注意(VLTA)を導入する。
TAPTRv3は、挑戦的なデータセットの大部分でTAPTRv2をはるかに上回り、最先端のパフォーマンスを得る。
大規模な内部データでトレーニングされたメソッドと比較しても、TAPTRv3は競争力がある。
関連論文リスト
- Exploring Temporally-Aware Features for Point Tracking [58.63091479730935]
Chronoは、時間的認識を組み込んだポイントトラッキング用に特別に設計された機能バックボーンである。
Chronoは、TAP-Vid-DAVISとTAP-Vid-Kineticsデータセットの洗練されたフリー設定で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T15:39:40Z) - Leveraging Consistent Spatio-Temporal Correspondence for Robust Visual Odometry [7.517597541959445]
S-Temporal Visual Odometry (STVO) は,マルチフレームフローマッチングの精度と一貫性を高めるための,新しいディープネットワークアーキテクチャである。
我々のSTVOはETH3Dベンチマークの最先端性能とKITTI Odometryベンチマークの38.9%を実現している。
論文 参考訳(メタデータ) (2024-12-22T08:47:13Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - STDAN: Deformable Attention Network for Space-Time Video
Super-Resolution [39.18399652834573]
本稿では,STDAN と呼ばれる,STVSR のための変形可能なアテンションネットワークを提案する。
まず、より近隣の入力フレームから豊富なコンテンツを得ることができるLSTFI(long-short term feature)モジュールを考案する。
第2に,空間的・時間的文脈を適応的に捕捉・集約する時空間変形可能特徴集合(STDFA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-14T03:40:35Z) - Enhanced Spatio-Temporal Interaction Learning for Video Deraining: A
Faster and Better Framework [93.37833982180538]
不要な雨がビデオの可視性を阻害し、ほとんどの屋外ビジョンシステムの堅牢性を低下させるため、ビデオ排水はコンピュータビジョンの重要なタスクです。
拡張時空間相互作用ネットワーク(ESTINet)と呼ばれる新しいエンドツーエンドのデラミニングフレームワークを提案する。
ESTINetは、現在の最先端ビデオの画質とスピードを大幅に向上させる。
論文 参考訳(メタデータ) (2021-03-23T05:19:35Z) - Comparison of Spatiotemporal Networks for Learning Video Related Tasks [0.0]
シーケンスから学習する多くの方法は、個々のフレームから時間的に2D CNNの特徴を処理したり、高性能な2D CNNアーキテクチャ内で直接的に3D畳み込みを利用する。
この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。
このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。
論文 参考訳(メタデータ) (2020-09-15T19:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。