Fugu-MT 論文翻訳(概要): TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

論文の概要: TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

arxiv url: http://arxiv.org/abs/2411.18671v1
Date: Wed, 27 Nov 2024 17:37:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.603501
Title: TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video
Title（参考訳）: TAPTRv3:ロングビデオにおける任意の点の空間的・時間的コンテキストフォスターロバスト追跡
Authors: Jinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang,
Abstract要約: 本稿では,TAPTRv2上に構築されたTAPTRv3について述べる。 TAPTRv3は、挑戦的なデータセットの大部分でTAPTRv2をはるかに上回り、最先端のパフォーマンスを得る。
参考スコア（独自算出の注目度）: 30.16638127979361
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present TAPTRv3, which is built upon TAPTRv2 to improve its point tracking robustness in long videos. TAPTRv2 is a simple DETR-like framework that can accurately track any point in real-world videos without requiring cost-volume. TAPTRv3 improves TAPTRv2 by addressing its shortage in querying high quality features from long videos, where the target tracking points normally undergo increasing variation over time. In TAPTRv3, we propose to utilize both spatial and temporal context to bring better feature querying along the spatial and temporal dimensions for more robust tracking in long videos. For better spatial feature querying, we present Context-aware Cross-Attention (CCA), which leverages surrounding spatial context to enhance the quality of attention scores when querying image features. For better temporal feature querying, we introduce Visibility-aware Long-Temporal Attention (VLTA) to conduct temporal attention to all past frames while considering their corresponding visibilities, which effectively addresses the feature drifting problem in TAPTRv2 brought by its RNN-like long-temporal modeling. TAPTRv3 surpasses TAPTRv2 by a large margin on most of the challenging datasets and obtains state-of-the-art performance. Even when compared with methods trained with large-scale extra internal data, TAPTRv3 is still competitive.
Abstract（参考訳）: 本稿では,TAPTRv2上に構築されたTAPTRv3について述べる。 TAPTRv2は単純なDETRライクなフレームワークで、コストボリュームを必要とせずに現実世界のビデオの任意の点を正確に追跡できる。 TAPTRv3はTAPTRv2を改善し、長いビデオから高品質な機能のクエリが不足していることに対処する。 TAPTRv3では,空間的,時間的両方の文脈を利用して,時間的,空間的,時間的空間的な特徴クエリーを向上し,よりロバストなトラッキングを実現することを提案する。空間的特徴クエリを改善するために,空間的コンテキストを活用したコンテキスト認識型クロスアテンション(CCA)を提案し,画像特徴を問合せする際の注意点の質を高める。時間的特徴クエリを改善するため,RNNのような長期モデリングによって引き起こされるTAPTRv2の特徴漂流問題に効果的に対処し,すべての過去のフレームに対して時間的注意を払うために,可視性を考慮した長期注意(VLTA)を導入する。 TAPTRv3は、挑戦的なデータセットの大部分でTAPTRv2をはるかに上回り、最先端のパフォーマンスを得る。大規模な内部データでトレーニングされたメソッドと比較しても、TAPTRv3は競争力がある。

関連論文リスト

Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文参考訳（メタデータ） (2025-03-26T01:47:42Z)
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文参考訳（メタデータ） (2025-03-25T17:58:48Z)
Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文参考訳（メタデータ） (2025-03-09T06:16:49Z)
Exploring Temporally-Aware Features for Point Tracking [58.63091479730935]
Chronoは、時間的認識を組み込んだポイントトラッキング用に特別に設計された機能バックボーンである。 Chronoは、TAP-Vid-DAVISとTAP-Vid-Kineticsデータセットの洗練されたフリー設定で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-21T15:39:40Z)
Leveraging Consistent Spatio-Temporal Correspondence for Robust Visual Odometry [7.517597541959445]
S-Temporal Visual Odometry (STVO) は,マルチフレームフローマッチングの精度と一貫性を高めるための,新しいディープネットワークアーキテクチャである。我々のSTVOはETH3Dベンチマークの最先端性能とKITTI Odometryベンチマークの38.9%を実現している。
論文参考訳（メタデータ） (2024-12-22T08:47:13Z)
LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。 LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文参考訳（メタデータ） (2024-01-03T18:57:27Z)
Efficient Long-Short Temporal Attention Network for Unsupervised Video Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文参考訳（メタデータ） (2023-09-21T01:09:46Z)
DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文参考訳（メタデータ） (2023-06-06T05:24:15Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文参考訳（メタデータ） (2023-03-14T02:58:27Z)
Enhanced Spatio-Temporal Interaction Learning for Video Deraining: A Faster and Better Framework [93.37833982180538]
不要な雨がビデオの可視性を阻害し、ほとんどの屋外ビジョンシステムの堅牢性を低下させるため、ビデオ排水はコンピュータビジョンの重要なタスクです。拡張時空間相互作用ネットワーク(ESTINet)と呼ばれる新しいエンドツーエンドのデラミニングフレームワークを提案する。 ESTINetは、現在の最先端ビデオの画質とスピードを大幅に向上させる。
論文参考訳（メタデータ） (2021-03-23T05:19:35Z)
Comparison of Spatiotemporal Networks for Learning Video Related Tasks [0.0]
シーケンスから学習する多くの方法は、個々のフレームから時間的に2D CNNの特徴を処理したり、高性能な2D CNNアーキテクチャ内で直接的に3D畳み込みを利用する。この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。
論文参考訳（メタデータ） (2020-09-15T19:57:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。