論文の概要: Generative Point Tracking with Flow Matching
- arxiv url: http://arxiv.org/abs/2510.20951v1
- Date: Thu, 23 Oct 2025 19:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.302169
- Title: Generative Point Tracking with Flow Matching
- Title(参考訳): フローマッチングによる生成点追跡
- Authors: Mattie Tesfaldet, Adam W. Harley, Konstantinos G. Derpanis, Derek Nowrouzezahrai, Christopher Pal,
- Abstract要約: マルチモーダルトラジェクトリをモデル化するための生成フレームワークであるGenerative Point Tracker (GenPT)を紹介する。
GenPTは、識別トラッカーの反復的な洗練を組み合わせた、新しいフローマッチングの定式化で訓練されている。
モデルの生成能力をいかに活用して点軌道推定を改善するかを示す。
- 参考スコア(独自算出の注目度): 32.15342097497571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tracking a point through a video can be a challenging task due to uncertainty arising from visual obfuscations, such as appearance changes and occlusions. Although current state-of-the-art discriminative models excel in regressing long-term point trajectory estimates -- even through occlusions -- they are limited to regressing to a mean (or mode) in the presence of uncertainty, and fail to capture multi-modality. To overcome this limitation, we introduce Generative Point Tracker (GenPT), a generative framework for modelling multi-modal trajectories. GenPT is trained with a novel flow matching formulation that combines the iterative refinement of discriminative trackers, a window-dependent prior for cross-window consistency, and a variance schedule tuned specifically for point coordinates. We show how our model's generative capabilities can be leveraged to improve point trajectory estimates by utilizing a best-first search strategy on generated samples during inference, guided by the model's own confidence of its predictions. Empirically, we evaluate GenPT against the current state of the art on the standard PointOdyssey, Dynamic Replica, and TAP-Vid benchmarks. Further, we introduce a TAP-Vid variant with additional occlusions to assess occluded point tracking performance and highlight our model's ability to capture multi-modality. GenPT is capable of capturing the multi-modality in point trajectories, which translates to state-of-the-art tracking accuracy on occluded points, while maintaining competitive tracking accuracy on visible points compared to extant discriminative point trackers.
- Abstract(参考訳): ビデオを通してポイントを追跡することは、外見の変化や閉塞といった視覚的難読化に起因する不確実性のため、難しい作業になる可能性がある。
現在の最先端の識別モデルは、長期的軌跡推定を(排他的でさえ)後退させるのに優れていますが、不確実性の存在下では平均(またはモード)に回帰することに制限され、マルチモダリティを捉えることができません。
この制限を克服するため,マルチモーダル軌道をモデル化するための生成フレームワークであるGenerative Point Tracker(GenPT)を導入する。
GenPTは、差別的トラッカーの反復的な洗練と、ウィンドウ依存のウィンドウ依存のウィンドウ整合性、特に点座標のために調整された分散スケジュールを組み合わせた、新しいフローマッチングの定式化で訓練されている。
提案手法は, モデルが予測に自信を持つことで, 予測中に生成したサンプルの最良の探索戦略を活用することで, 点軌道推定を改善するために, モデル生成能力をいかに活用できるかを示す。
実験的に、標準的なPointOdyssey、Dynamic Replica、TAP-Vidベンチマーク上で、GenPTを現在の最先端技術に対して評価する。
さらに,隠蔽点追跡性能を評価するためのオクルージョンを付加したTAP-Vidモデルを導入し,マルチモーダリティの獲得能力を強調した。
GenPTは、既存の識別点トラッカーと比較して、可視点における競合追跡精度を維持しながら、隠蔽点における最先端追跡精度に変換される点トラジェクトリにおけるマルチモーダリティをキャプチャすることができる。
関連論文リスト
- Self-Supervised Any-Point Tracking by Contrastive Random Walks [17.50529887238381]
我々はグローバルマッチング変換器を訓練し、コントラッシブなランダムウォークを通してビデオを通してサイクル整合性のあるトラックを見つける。
提案手法はTapVidベンチマークで高い性能を達成し,従来の自己教師付きトラッキング手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Trajectory Anomaly Detection with Language Models [21.401931052512595]
本稿では,自己回帰因果アテンションモデル(LM-TAD)を用いた軌道異常検出のための新しい手法を提案する。
トラジェクトリをトークンの列として扱うことにより、トラジェクトリ上の確率分布を学習し、高精度な異常位置の同定を可能にする。
本実験は, 合成および実世界の両方のデータセットに対するLM-TADの有効性を実証した。
論文 参考訳(メタデータ) (2024-09-18T17:33:31Z) - Robust Visual Tracking via Iterative Gradient Descent and Threshold Selection [4.978166837959101]
本稿では, 誤差ベクトルがガウス-ラプラシアン分布に従えば, 良好な性能が得られる新しい線形回帰推定器を提案する。
さらに、IGDTSを生成トラッカーに拡張し、IGDTS距離を適用してサンプルとモデル間のずれを測定する。
いくつかの難解な画像列の実験結果から,提案したトラッカーは既存のトラッカーより優れていた。
論文 参考訳(メタデータ) (2024-06-02T01:51:09Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Continuity-Discrimination Convolutional Neural Network for Visual Object
Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。
この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。
不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:35:03Z) - ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking [80.02322563402758]
オンラインマルチオブジェクトトラッキング(MOT)フレームワークの中核的なコンポーネントの1つは、既存のトラックレットと新しい検出を関連付けることである。
そこで我々は,トラックレットが自然運動を表す可能性を直接測定することにより,トラックレットの提案を評価する確率論的自己回帰生成モデルを提案する。
論文 参考訳(メタデータ) (2020-04-16T06:43:11Z) - Deep Multi-Shot Network for modelling Appearance Similarity in
Multi-Person Tracking applications [0.0]
本稿では、人の観察における外観類似度(MS-DoAS)の測定のためのディープマルチショットニューラルモデルを提案する。
モデルは故意に訓練され、以前のアイデンティティスイッチの存在を管理し、処理されたトラックでの観察を見逃すことができる。
これは、新しい観測が特定の軌道に対応するときの識別能力の高さを示し、ハードテストで97%の分類精度を達成している。
論文 参考訳(メタデータ) (2020-04-07T16:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。