論文の概要: TAPNext++: What's Next for Tracking Any Point (TAP)?
- arxiv url: http://arxiv.org/abs/2604.10582v1
- Date: Sun, 12 Apr 2026 11:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.113349
- Title: TAPNext++: What's Next for Tracking Any Point (TAP)?
- Title(参考訳): TAPNext++: 任意のポイント(TAP)追跡の次は?
- Authors: Sebastian Jung, Artem Zholus, Martin Sundermeyer, Carl Doersch, Ross Goroshin, David Joseph Tan, Sarath Chandar, Rudolph Triebel, Federico Tombari,
- Abstract要約: 本稿では,低メモリとアーキテクチャの計算フットプリントを保ちながら,桁数桁長の点を追跡するモデルを提案する。
再検出性能が現在の文献の盲点であることを強調し,新しいメトリクスであるRe-detection Average Jaccardを導入する。
複数のベンチマークにおいて,再帰型トランスフォーマーがポイントトラッキングのために大幅に改善され,新たな最先端のモデルが設定できることが実証された。
- 参考スコア(独自算出の注目度): 58.6925880906723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tracking-Any-Point (TAP) models aim to track any point through a video which is a crucial task in AR/XR and robotics applications. The recently introduced TAPNext approach proposes an end-to-end, recurrent transformer architecture to track points frame-by-frame in a purely online fashion -- demonstrating competitive performance at minimal latency. However, we show that TAPNext struggles with longer video sequences and also frequently fails to re-detect query points that reappear after being occluded or leaving the frame. In this work, we present TAPNext++, a model that tracks points in sequences that are orders of magnitude longer while preserving the low memory and compute footprint of the architecture. We train the recurrent video transformer using several data-driven solutions, including training on long 1024-frame sequences enabled by sequence parallelism techniques. We highlight that re-detection performance is a blind spot in the current literature and introduce a new metric, Re-Detection Average Jaccard ($AJ_{RD}$), to explicitly evaluate tracking on re-appearing points. To improve re-detection of points, we introduce tailored geometric augmentations, such as periodic roll that simulates point re-entries, and supervising occluded points. We demonstrate that recurrent transformers can be substantially improved for point tracking and set a new state-of-the-art on multiple benchmarks. Model and code can be found at https://tap-next-plus-plus.github.io.
- Abstract(参考訳): Tracking-Any-Point(TAP)モデルは、AR/XRおよびロボティクスアプリケーションにおいて重要なタスクであるビデオを通して任意のポイントを追跡することを目的としている。
先日発表されたTAPNextアプローチでは、純粋にオンライン形式でフレーム単位のポイントをトラックするエンドツーエンドのリカレントトランスフォーマーアーキテクチャが提案されている。
しかし、TAPNextは長いビデオシーケンスに苦しむとともに、フレームを外された後に再び現れたクエリポイントを再検出することができないこともよく示している。
本研究では,低メモリとアーキテクチャの計算フットプリントを保ちながら,桁長の順序をトラックするTAPNext++を提案する。
我々は、列並列化技術によって実現された長い1024フレームシーケンスのトレーニングを含む、複数のデータ駆動型ソリューションを用いて、リカレントビデオトランスフォーマーを訓練する。
再検出性能は、現在の文献では盲点であり、再出現点のトラッキングを明示的に評価するための新しいメトリクスであるRe-Detection Average Jaccard(AJ_{RD}$)を導入する。
点の再検出を改善するために, 点の再帰をシミュレートする周期ロールや, 隠蔽点の監視など, 幾何的拡張を導入する。
複数のベンチマークにおいて,再帰型トランスフォーマーのポイントトラッキング性能が大幅に向上し,新たな最先端を設定できることが実証された。
モデルとコードはhttps://tap-next-plus-github.ioで確認できる。
関連論文リスト
- Generative Point Tracking with Flow Matching [32.15342097497571]
マルチモーダルトラジェクトリをモデル化するための生成フレームワークであるGenerative Point Tracker (GenPT)を紹介する。
GenPTは、識別トラッカーの反復的な洗練を組み合わせた、新しいフローマッチングの定式化で訓練されている。
モデルの生成能力をいかに活用して点軌道推定を改善するかを示す。
論文 参考訳(メタデータ) (2025-10-23T19:25:14Z) - Track-On: Transformer-based Online Point Tracking with Memory [34.744546679670734]
オンラインの長期点追跡用に設計されたシンプルなトランスフォーマーベースのモデルであるTrack-Onを紹介する。
フル・テンポラル・モデリングに依存する従来の手法とは異なり、我々のモデルは将来のフレームにアクセスすることなくビデオ・フレームを慎重に処理する。
推測時に、高い精度で対応点とトラックポイントを識別するためにパッチ分類と改良を用いる。
論文 参考訳(メタデータ) (2025-01-30T17:04:11Z) - Solution for Point Tracking Task of ECCV 2nd Perception Test Challenge 2024 [13.14886222358538]
本報告では,映像中の物理的表面のモニタリングに着目したトラッキング・アニーポイント(TAP)の改良手法を提案する。
我々は,0ショット方式で複数粒度の点追跡を知覚・修正することに焦点を当てた,微細な点識別(textbfFPD)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T15:09:40Z) - Robust Visual Tracking via Iterative Gradient Descent and Threshold Selection [4.978166837959101]
本稿では, 誤差ベクトルがガウス-ラプラシアン分布に従えば, 良好な性能が得られる新しい線形回帰推定器を提案する。
さらに、IGDTSを生成トラッカーに拡張し、IGDTS距離を適用してサンプルとモデル間のずれを測定する。
いくつかの難解な画像列の実験結果から,提案したトラッカーは既存のトラッカーより優れていた。
論文 参考訳(メタデータ) (2024-06-02T01:51:09Z) - CoTracker: It is Better to Track Together [70.63040730154984]
CoTrackerは、長いビデオシーケンスで多数の2Dポイントを追跡するトランスフォーマーベースのモデルである。
関節トラッキングはトラッキング精度とロバスト性を大幅に改善し、CoTrackerはカメラビューの外側に隠された点や点を追跡することができる。
論文 参考訳(メタデータ) (2023-07-14T21:13:04Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking [64.28025685503376]
SeqTrackは、ビジュアルトラッキングをシーケンス生成タスクとしてキャストし、オブジェクト境界ボックスを自動回帰的に予測する。
SeqTrackv2は補助モダリティのための統一インターフェースとタスクを指定するためのタスクプロンプトトークンのセットを統合している。
このシーケンス学習パラダイムは、トラッキングフレームワークを単純化するだけでなく、14の挑戦的なベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-04-27T17:56:29Z) - REGTR: End-to-end Point Cloud Correspondences with Transformers [79.52112840465558]
我々は、注意機構が明示的な特徴マッチングとRANSACの役割を置き換えることができると推測する。
本稿では,最終文集合を直接予測するエンドツーエンドフレームワークを提案する。
提案手法は3DMatchおよびModelNetベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T06:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。