論文の概要: TAPNext: Tracking Any Point (TAP) as Next Token Prediction
- arxiv url: http://arxiv.org/abs/2504.05579v1
- Date: Tue, 08 Apr 2025 00:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:01.268607
- Title: TAPNext: Tracking Any Point (TAP) as Next Token Prediction
- Title(参考訳): TAPNext:次のトークン予測として任意のポイント(TAP)を追跡する
- Authors: Artem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin,
- Abstract要約: 我々は、TAPをシーケンシャルなマスク付きトークンデコーディングとして扱う新しいアプローチであるTAPNextを提案する。
我々のモデルは因果的であり、純粋にオンライン形式で追跡し、トラッキング固有の帰納バイアスを取り除く。
その単純さにもかかわらず、TAPNextはオンライントラッカーとオフライントラッカーの両方で、最先端のトラッキングパフォーマンスを新たに達成している。
- 参考スコア(独自算出の注目度): 35.995498722972656
- License:
- Abstract: Tracking Any Point (TAP) in a video is a challenging computer vision problem with many demonstrated applications in robotics, video editing, and 3D reconstruction. Existing methods for TAP rely heavily on complex tracking-specific inductive biases and heuristics, limiting their generality and potential for scaling. To address these challenges, we present TAPNext, a new approach that casts TAP as sequential masked token decoding. Our model is causal, tracks in a purely online fashion, and removes tracking-specific inductive biases. This enables TAPNext to run with minimal latency, and removes the temporal windowing required by many existing state of art trackers. Despite its simplicity, TAPNext achieves a new state-of-the-art tracking performance among both online and offline trackers. Finally, we present evidence that many widely used tracking heuristics emerge naturally in TAPNext through end-to-end training.
- Abstract(参考訳): ビデオ内の任意のポイント(TAP)を追跡することは、ロボット工学、ビデオ編集、そして3D再構成における多くの実証済みの応用において、コンピュータビジョンの問題である。
既存のTAPの手法は、複雑なトラッキング固有の帰納バイアスとヒューリスティックに大きく依存し、その一般化とスケーリングの可能性を制限する。
これらの課題に対処するために、TAPをシーケンシャルなマスク付きトークンデコーディングとして使用する新しいアプローチであるTAPNextを提案する。
我々のモデルは因果的であり、純粋にオンライン形式で追跡し、トラッキング固有の帰納バイアスを取り除く。
これにより、TAPNextは最小のレイテンシで実行でき、既存の最先端のアートトラッカに必要な時間的ウィンドウを削除できる。
その単純さにもかかわらず、TAPNextはオンライントラッカーとオフライントラッカーの両方で、最先端のトラッキングパフォーマンスを新たに達成している。
最後に,TAPNextで広く使用されている追跡ヒューリスティックが,エンドツーエンドのトレーニングを通じて自然に現れることを示す。
関連論文リスト
- Lost and Found: Overcoming Detector Failures in Online Multi-Object Tracking [15.533652456081374]
マルチオブジェクト追跡(MOT)は、時間とともに複数のオブジェクトのアイデンティティと位置を正確に推定する。
現代の検出器は、あるフレーム内のいくつかのオブジェクトを見逃すことがあるため、トラッカーは早めに追跡をやめる。
オンラインTbDシステムと互換性のある汎用フレームワークであるBUSCAを提案する。
論文 参考訳(メタデータ) (2024-07-14T10:45:12Z) - Dense Optical Tracking: Connecting the Dots [82.79642869586587]
DOTは、ビデオにおけるポイントトラッキングの問題を解決するための、新しくてシンプルで効率的な方法である。
OmniMotionのような高度な"ユニバーサルトラッカー"を上回り、CoTrackerのような最良のポイントトラッキングアルゴリズムと同等か、あるいはそれ以上の精度で、DOTが現在の光フロー技術よりもはるかに正確であることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:59:59Z) - Learning to Track Objects from Unlabeled Videos [63.149201681380305]
本稿では,Unsupervised Single Object Tracker (USOT) をスクラッチから学習することを提案する。
教師なしトラッカーと教師なしトラッカーのギャップを狭めるために,3段階からなる効果的な教師なし学習手法を提案する。
実験の結果、未ラベルのビデオから得られたUSOTは、最先端の教師なしトラッカーよりも大きなマージンでうまく機能していることがわかった。
論文 参考訳(メタデータ) (2021-08-28T22:10:06Z) - DEFT: Detection Embeddings for Tracking [3.326320568999945]
我々は,DEFT と呼ばれる効率的な関節検出・追跡モデルを提案する。
提案手法は,外見に基づくオブジェクトマッチングネットワークと,下層のオブジェクト検出ネットワークとの協調学習に依存している。
DEFTは2Dオンライントラッキングリーダーボードのトップメソッドに匹敵する精度とスピードを持っている。
論文 参考訳(メタデータ) (2021-02-03T20:00:44Z) - TubeTK: Adopting Tubes to Track Multi-Object in a One-Step Training
Model [51.14840210957289]
マルチオブジェクトトラッキングは、長い間研究されてきた基本的な視覚問題である。
Tracking by Detection (TBD)の成功にもかかわらず、この2段階の手法はエンドツーエンドでトレーニングするには複雑すぎる。
本稿では,短いビデオクリップ中の物体の時間空間位置を示すために,バウンディングチューブを導入することで,一段階のトレーニングしか必要としない簡潔なエンドツーエンドモデルチューブTKを提案する。
論文 参考訳(メタデータ) (2020-06-10T06:45:05Z) - ArTIST: Autoregressive Trajectory Inpainting and Scoring for Tracking [80.02322563402758]
オンラインマルチオブジェクトトラッキング(MOT)フレームワークの中核的なコンポーネントの1つは、既存のトラックレットと新しい検出を関連付けることである。
そこで我々は,トラックレットが自然運動を表す可能性を直接測定することにより,トラックレットの提案を評価する確率論的自己回帰生成モデルを提案する。
論文 参考訳(メタデータ) (2020-04-16T06:43:11Z) - High-Performance Long-Term Tracking with Meta-Updater [75.80564183653274]
短期的追跡よりも実用的に近いため、長期的視覚追跡が注目されている。
ほとんどのトップランクの長期トラッカーはオフラインでトレーニングされたSiameseアーキテクチャを採用しているため、オンライン更新による短期トラッカーの大きな進歩の恩恵を受けることはできない。
我々は、重要な問題に対処するために、オフラインでトレーニングされた新しいメタ更新器を提案する: トラッカーは、現在のフレームで更新する準備ができているか?
論文 参考訳(メタデータ) (2020-04-01T09:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。