論文の概要: Track-On2: Enhancing Online Point Tracking with Memory
- arxiv url: http://arxiv.org/abs/2509.19115v1
- Date: Tue, 23 Sep 2025 15:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.915434
- Title: Track-On2: Enhancing Online Point Tracking with Memory
- Title(参考訳): Track-On2: メモリによるオンラインポイントトラッキングの強化
- Authors: Görkay Aydemir, Weidi Xie, Fatma Güney,
- Abstract要約: オンライン長期追跡のためのシンプルで効率的なトランスフォーマーベースモデルであるTrack-OnをTrack-On2に拡張する。
Track-On2は、アーキテクチャの改良によるパフォーマンスと効率の向上、メモリの有効利用、および合成トレーニング戦略の改善を実現している。
- 参考スコア(独自算出の注目度): 57.820749134569574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the problem of long-term point tracking, which requires consistent identification of points across video frames under significant appearance changes, motion, and occlusion. We target the online setting, i.e. tracking points frame-by-frame, making it suitable for real-time and streaming applications. We extend our prior model Track-On into Track-On2, a simple and efficient transformer-based model for online long-term tracking. Track-On2 improves both performance and efficiency through architectural refinements, more effective use of memory, and improved synthetic training strategies. Unlike prior approaches that rely on full-sequence access or iterative updates, our model processes frames causally and maintains temporal coherence via a memory mechanism, which is key to handling drift and occlusions without requiring future frames. At inference, we perform coarse patch-level classification followed by refinement. Beyond architecture, we systematically study synthetic training setups and their impact on memory behavior, showing how they shape temporal robustness over long sequences. Through comprehensive experiments, Track-On2 achieves state-of-the-art results across five synthetic and real-world benchmarks, surpassing prior online trackers and even strong offline methods that exploit bidirectional context. These results highlight the effectiveness of causal, memory-based architectures trained purely on synthetic data as scalable solutions for real-world point tracking. Project page: https://kuis-ai.github.io/track_on2
- Abstract(参考訳): 本稿では,映像フレーム間の一貫した点識別を必要とする長期的点追跡の問題について考察する。
オンライン設定、すなわち、リアルタイムおよびストリーミングアプリケーションに適したトラッキングポイントをフレーム単位でターゲットとします。
オンライン長期追跡のためのシンプルで効率的なトランスフォーマーベースモデルであるTrack-OnをTrack-On2に拡張する。
Track-On2は、アーキテクチャの改良によるパフォーマンスと効率の向上、メモリの有効利用、および合成トレーニング戦略の改善を実現している。
フルシーケンスアクセスや反復更新に依存する従来のアプローチとは異なり、我々のモデルプロセスは、将来のフレームを必要とせずにドリフトやオクルージョンを処理するキーとなるメモリメカニズムを介して、慎重にフレーム化し、時間的コヒーレンスを維持する。
推測では、粗いパッチレベルの分類を行い、改善する。
アーキテクチャ以外では、合成トレーニングのセットアップとその記憶行動への影響を体系的に研究し、長いシーケンス上で時間的堅牢性をいかに形成するかを示す。
総合的な実験を通じて、Track-On2は5つの合成および実世界のベンチマークで最先端の結果を達成する。
これらの結果は、実世界のポイントトラッキングのためのスケーラブルなソリューションとして、純粋に合成データに基づいて訓練された因果的メモリベースのアーキテクチャの有効性を強調している。
プロジェクトページ: https://kuis-ai.github.io/track_on2
関連論文リスト
- Online Long-term Point Tracking in the Foundation Model Era [0.0]
ポイントトラッキングは、ビデオフレーム全体で同じ物理点を識別することを目的としており、動きの幾何学的表現として機能する。
この論文は、将来の情報にアクセスせずにフレームを逐次処理するオンライン環境での長期的ポイントトラッキングの問題に対処する。
本稿では,各トラックポイントを問合せとして扱い,ビデオフレームを1回ずつ処理するトランスフォーマーベースのモデルであるTrack-Onを紹介する。
論文 参考訳(メタデータ) (2025-07-12T09:24:28Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - Track-On: Transformer-based Online Point Tracking with Memory [34.744546679670734]
オンラインの長期点追跡用に設計されたシンプルなトランスフォーマーベースのモデルであるTrack-Onを紹介する。
フル・テンポラル・モデリングに依存する従来の手法とは異なり、我々のモデルは将来のフレームにアクセスすることなくビデオ・フレームを慎重に処理する。
推測時に、高い精度で対応点とトラックポイントを識別するためにパッチ分類と改良を用いる。
論文 参考訳(メタデータ) (2025-01-30T17:04:11Z) - Is a Pure Transformer Effective for Separated and Online Multi-Object Tracking? [36.5272157173876]
マルチオブジェクト追跡 (MOT) は, 追跡と検出を分離したオンラインパラダイムにおいて, 短期的な関連性を示した。
本稿では、トラジェクトリグラフの概念を概観し、それらを有向非巡回グラフとして表現することで、新しい視点を提案する。
オンラインMOTの短時間・長期追跡におけるTransformerの有効性を検証するために,PuTR(Concise Pure Transformer)を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:44:46Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Context-aware Visual Tracking with Joint Meta-updating [11.226947525556813]
本稿では,シーケンス全体に沿った情報を活用することで,両ブランチを共同でメタ更新する,表現空間上のトラッカーを最適化するコンテキスト認識追跡モデルを提案する。
提案手法は,VOT2018におけるEAOスコアの0.514を40FPSの速度で達成し,基礎となるトラッカーの精度とロバスト性を向上できることを示す。
論文 参考訳(メタデータ) (2022-04-04T14:16:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。