論文の概要: TAP-Vid: A Benchmark for Tracking Any Point in a Video
- arxiv url: http://arxiv.org/abs/2211.03726v1
- Date: Mon, 7 Nov 2022 17:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:44:33.552695
- Title: TAP-Vid: A Benchmark for Tracking Any Point in a Video
- Title(参考訳): TAP-Vid:ビデオ中の任意のポイントを追跡するベンチマーク
- Authors: Carl Doersch, Ankush Gupta, Larisa Markeeva, Adri\`a Recasens, Lucas
Smaira, Yusuf Aytar, Jo\~ao Carreira, Andrew Zisserman, Yi Yang
- Abstract要約: 我々は、より長いビデオクリップで表面上の任意の物理点を追跡するという問題を定式化し、任意の点(TAP)を追尾する。
そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオとを併用したベンチマーク,TAP-Vidを提案する。
本稿では, 簡易な終端点追跡モデルTAP-Netを提案する。
- 参考スコア(独自算出の注目度): 84.94877216665793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic motion understanding from video involves not only tracking objects,
but also perceiving how their surfaces deform and move. This information is
useful to make inferences about 3D shape, physical properties and object
interactions. While the problem of tracking arbitrary physical points on
surfaces over longer video clips has received some attention, no dataset or
benchmark for evaluation existed, until now. In this paper, we first formalize
the problem, naming it tracking any point (TAP). We introduce a companion
benchmark, TAP-Vid, which is composed of both real-world videos with accurate
human annotations of point tracks, and synthetic videos with perfect
ground-truth point tracks. Central to the construction of our benchmark is a
novel semi-automatic crowdsourced pipeline which uses optical flow estimates to
compensate for easier, short-term motion like camera shake, allowing annotators
to focus on harder sections of video. We validate our pipeline on synthetic
data and propose a simple end-to-end point tracking model TAP-Net, showing that
it outperforms all prior methods on our benchmark when trained on synthetic
data.
- Abstract(参考訳): 映像からのジェネリックモーションの理解は、物体の追跡だけでなく、その表面がどのように変形し動くかも知覚する。
この情報は3次元形状、物理的特性、物体の相互作用に関する推論に有用である。
より長いビデオクリップよりも表面上の任意の物理点を追跡するという問題は注目されているが、これまで評価のためのデータセットやベンチマークは存在しなかった。
本稿では,まず問題を定式化し,任意の点(TAP)を追尾する。
そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオを組み合わせたベンチマークを行った。
ベンチマークの作成の中心となるのは、光学フローの推定値を使って、カメラシェイクのような簡単で短期的な動きを補償する、新しい半自動的なクラウドソーシングパイプラインです。
合成データに関するパイプラインを検証するとともに、単純なエンドツーエンドのポイントトラッキングモデルtap-netを提案し、合成データでトレーニングされた場合のベンチマークのすべてのメソッドを上回っています。
関連論文リスト
- Long-Term 3D Point Tracking By Cost Volume Fusion [2.3411633024711573]
テストタイムの微調整を必要とせず,新たなポイントやビデオに一般化する3Dの長期追跡のための,最初のディープラーニングフレームワークを提案する。
モデルでは,複数過去の外観と動き情報をトランスフォーマーアーキテクチャで統合し,全体的なトラッキング性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-18T09:34:47Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Dense Optical Tracking: Connecting the Dots [82.79642869586587]
DOTは、ビデオにおけるポイントトラッキングの問題を解決するための、新しくてシンプルで効率的な方法である。
OmniMotionのような高度な"ユニバーサルトラッカー"を上回り、CoTrackerのような最良のポイントトラッキングアルゴリズムと同等か、あるいはそれ以上の精度で、DOTが現在の光フロー技術よりもはるかに正確であることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:59:59Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。