論文の概要: Track-On: Transformer-based Online Point Tracking with Memory
- arxiv url: http://arxiv.org/abs/2501.18487v1
- Date: Thu, 30 Jan 2025 17:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:14:54.855521
- Title: Track-On: Transformer-based Online Point Tracking with Memory
- Title(参考訳): Track-On: メモリ付きトランスフォーマーベースのオンラインポイントトラッキング
- Authors: Görkay Aydemir, Xiongyi Cai, Weidi Xie, Fatma Güney,
- Abstract要約: オンラインの長期点追跡用に設計されたシンプルなトランスフォーマーベースのモデルであるTrack-Onを紹介する。
フル・テンポラル・モデリングに依存する従来の手法とは異なり、我々のモデルは将来のフレームにアクセスすることなくビデオ・フレームを慎重に処理する。
推測時に、高い精度で対応点とトラックポイントを識別するためにパッチ分類と改良を用いる。
- 参考スコア(独自算出の注目度): 34.744546679670734
- License:
- Abstract: In this paper, we consider the problem of long-term point tracking, which requires consistent identification of points across multiple frames in a video, despite changes in appearance, lighting, perspective, and occlusions. We target online tracking on a frame-by-frame basis, making it suitable for real-world, streaming scenarios. Specifically, we introduce Track-On, a simple transformer-based model designed for online long-term point tracking. Unlike prior methods that depend on full temporal modeling, our model processes video frames causally without access to future frames, leveraging two memory modules -- spatial memory and context memory -- to capture temporal information and maintain reliable point tracking over long time horizons. At inference time, it employs patch classification and refinement to identify correspondences and track points with high accuracy. Through extensive experiments, we demonstrate that Track-On sets a new state-of-the-art for online models and delivers superior or competitive results compared to offline approaches on seven datasets, including the TAP-Vid benchmark. Our method offers a robust and scalable solution for real-time tracking in diverse applications. Project page: https://kuis-ai.github.io/track_on
- Abstract(参考訳): 本稿では,映像中の複数のフレームにまたがる点を一貫した識別を必要とする長期的点追跡の問題について考察する。
オンライントラッキングをフレーム単位で目標としており、現実のストリーミングシナリオに適したものにしています。
具体的には、オンラインの長期点追跡用に設計されたシンプルなトランスフォーマーベースのモデルであるTrack-Onを紹介する。
フル・テンポラル・モデリングに依存する従来の手法とは異なり、我々のモデルは将来のフレームにアクセスすることなくビデオ・フレームを慎重に処理し、2つのメモリ・モジュール(空間記憶とコンテキスト記憶)を活用して時間的情報を捕捉し、長い時間的地平線上で信頼性のあるポイントトラッキングを維持する。
推測時に、高い精度で対応点とトラックポイントを識別するためにパッチ分類と改良を用いる。
TAP-Vidベンチマークを含む7つのデータセットのオフラインアプローチと比較して、トラックオンがオンラインモデルに新たな最先端の状況を設定し、優れた、あるいは競争的な結果をもたらすことを実証した。
本手法は,多様なアプリケーションにおけるリアルタイムトラッキングのための堅牢でスケーラブルなソリューションを提供する。
プロジェクトページ: https://kuis-ai.github.io/track_on
関連論文リスト
- Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking [53.33637391723555]
本研究では,STTrack というマルチモーダル空間時間追跡手法を提案する。
従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。
これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
論文 参考訳(メタデータ) (2024-12-20T09:10:17Z) - ODTrack: Online Dense Temporal Token Learning for Visual Tracking [22.628561792412686]
ODTrackはビデオレベルのトラッキングパイプラインで、オンライントークンの伝搬方法でビデオフレームのコンテキスト関係を密に関連付ける。
リアルタイムの速度で実行しながら、7つのベンチマークで新しい itSOTA パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-01-03T11:44:09Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - STTracker: Spatio-Temporal Tracker for 3D Single Object Tracking [11.901758708579642]
ポイントクラウドによる3Dオブジェクトのトラッキングは、3Dコンピュータビジョンにおいて重要なタスクである。
以前の方法は、通常、最後の2つのフレームを入力し、前のフレームのテンプレートポイントクラウドと現在のフレームの検索エリアポイントクラウドを使用する。
論文 参考訳(メタデータ) (2023-06-30T07:25:11Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Context-aware Visual Tracking with Joint Meta-updating [11.226947525556813]
本稿では,シーケンス全体に沿った情報を活用することで,両ブランチを共同でメタ更新する,表現空間上のトラッカーを最適化するコンテキスト認識追跡モデルを提案する。
提案手法は,VOT2018におけるEAOスコアの0.514を40FPSの速度で達成し,基礎となるトラッカーの精度とロバスト性を向上できることを示す。
論文 参考訳(メタデータ) (2022-04-04T14:16:00Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。