論文の概要: Online Long-term Point Tracking in the Foundation Model Era
- arxiv url: http://arxiv.org/abs/2507.09217v1
- Date: Sat, 12 Jul 2025 09:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.763738
- Title: Online Long-term Point Tracking in the Foundation Model Era
- Title(参考訳): ファンデーションモデル時代のオンライン長期追跡
- Authors: Görkay Aydemir,
- Abstract要約: ポイントトラッキングは、ビデオフレーム全体で同じ物理点を識別することを目的としており、動きの幾何学的表現として機能する。
この論文は、将来の情報にアクセスせずにフレームを逐次処理するオンライン環境での長期的ポイントトラッキングの問題に対処する。
本稿では,各トラックポイントを問合せとして扱い,ビデオフレームを1回ずつ処理するトランスフォーマーベースのモデルであるTrack-Onを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Point tracking aims to identify the same physical point across video frames and serves as a geometry-aware representation of motion. This representation supports a wide range of applications, from robotics to augmented reality, by enabling accurate modeling of dynamic environments. Most existing long-term tracking approaches operate in an offline setting, where future frames are available to refine predictions and recover from occlusions. However, real-world scenarios often demand online predictions: the model must operate causally, using only current and past frames. This constraint is critical in streaming video and embodied AI, where decisions must be made immediately based on past observations. Under such constraints, viewpoint invariance becomes essential. Visual foundation models, trained on diverse large-scale datasets, offer the potential for robust geometric representations. While they lack temporal reasoning on their own, they can be integrated into tracking pipelines to enrich spatial features. In this thesis, we address the problem of long-term point tracking in an online setting, where frames are processed sequentially without access to future information or sliding windows. We begin by evaluating the suitability of visual foundation models for this task and find that they can serve as useful initializations and be integrated into tracking pipelines. However, to enable long-term tracking in an online setting, a dedicated design is still required. In particular, maintaining coherence over time in this causal regime requires memory to propagate appearance and context across frames. To address this, we introduce Track-On, a transformer-based model that treats each tracked point as a query and processes video frames one at a time. Track-On sets a new state of the art across seven public benchmarks, demonstrating the feasibility of long-term tracking without future access.
- Abstract(参考訳): ポイントトラッキングは、ビデオフレーム全体で同じ物理点を識別することを目的としており、動きの幾何学的表現として機能する。
この表現は、ロボット工学から拡張現実まで幅広い応用をサポートし、動的環境の正確なモデリングを可能にする。
ほとんどの既存の長期追跡アプローチはオフライン環境で動作しており、将来のフレームは予測を洗練し、閉塞から回復することができる。
しかし、現実のシナリオは、しばしばオンラインの予測を要求する:モデルは、現在のフレームと過去のフレームだけを使用して、慎重に操作する必要がある。
この制約は、ビデオのストリーミングとAIの具体化において重要である。
このような制約の下では、視点不変性は必須となる。
多様な大規模データセットに基づいてトレーニングされたビジュアルファウンデーションモデルは、堅牢な幾何学的表現の可能性を秘めている。
時間的推論に欠けるが、空間的特徴を豊かにするために、追跡パイプラインに統合することができる。
本稿では,将来の情報やスライディングウィンドウにアクセスせずにフレームを逐次処理するオンライン環境での長期的ポイントトラッキングの問題に対処する。
まず、このタスクに対する視覚的基礎モデルの適合性を評価し、それらが有用な初期化として機能し、トラッキングパイプラインに統合可能であることを確認する。
しかし、オンライン環境での長期追跡を可能にするためには、依然として専用の設計が必要である。
特に、この因果関係におけるコヒーレンスを維持するには、フレーム間の外観とコンテキストを伝播させるメモリが必要である。
そこで本研究では,各トラックポイントを問合せとして扱い,ビデオフレームを1回ずつ処理するトランスフォーマーモデルであるTrack-Onを紹介する。
Track-Onは、7つの公開ベンチマークにまたがって新たな最先端を設定し、将来のアクセスなしでの長期追跡の実現可能性を示している。
関連論文リスト
- Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - Track-On: Transformer-based Online Point Tracking with Memory [34.744546679670734]
オンラインの長期点追跡用に設計されたシンプルなトランスフォーマーベースのモデルであるTrack-Onを紹介する。
フル・テンポラル・モデリングに依存する従来の手法とは異なり、我々のモデルは将来のフレームにアクセスすることなくビデオ・フレームを慎重に処理する。
推測時に、高い精度で対応点とトラックポイントを識別するためにパッチ分類と改良を用いる。
論文 参考訳(メタデータ) (2025-01-30T17:04:11Z) - Exploring Temporally-Aware Features for Point Tracking [58.63091479730935]
Chronoは、時間的認識を組み込んだポイントトラッキング用に特別に設計された機能バックボーンである。
Chronoは、TAP-Vid-DAVISとTAP-Vid-Kineticsデータセットの洗練されたフリー設定で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T15:39:40Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Degrees of Freedom Matter: Inferring Dynamics from Point Trajectories [28.701879490459675]
ニューラルネットワークによってパラメータ化された暗黙の運動場を学習し、同一領域内の新規点の動きを予測することを目的とする。
我々は、SIRENが提供する固有正則化を活用し、入力層を変更して時間的に滑らかな運動場を生成する。
実験では, 未知点軌道の予測におけるモデルの性能評価と, 変形を伴う時間メッシュアライメントへの応用について検討した。
論文 参考訳(メタデータ) (2024-06-05T21:02:10Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。