論文の概要: TAP-Vid: A Benchmark for Tracking Any Point in a Video
- arxiv url: http://arxiv.org/abs/2211.03726v1
- Date: Mon, 7 Nov 2022 17:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:44:33.552695
- Title: TAP-Vid: A Benchmark for Tracking Any Point in a Video
- Title(参考訳): TAP-Vid:ビデオ中の任意のポイントを追跡するベンチマーク
- Authors: Carl Doersch, Ankush Gupta, Larisa Markeeva, Adri\`a Recasens, Lucas
Smaira, Yusuf Aytar, Jo\~ao Carreira, Andrew Zisserman, Yi Yang
- Abstract要約: 我々は、より長いビデオクリップで表面上の任意の物理点を追跡するという問題を定式化し、任意の点(TAP)を追尾する。
そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオとを併用したベンチマーク,TAP-Vidを提案する。
本稿では, 簡易な終端点追跡モデルTAP-Netを提案する。
- 参考スコア(独自算出の注目度): 84.94877216665793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generic motion understanding from video involves not only tracking objects,
but also perceiving how their surfaces deform and move. This information is
useful to make inferences about 3D shape, physical properties and object
interactions. While the problem of tracking arbitrary physical points on
surfaces over longer video clips has received some attention, no dataset or
benchmark for evaluation existed, until now. In this paper, we first formalize
the problem, naming it tracking any point (TAP). We introduce a companion
benchmark, TAP-Vid, which is composed of both real-world videos with accurate
human annotations of point tracks, and synthetic videos with perfect
ground-truth point tracks. Central to the construction of our benchmark is a
novel semi-automatic crowdsourced pipeline which uses optical flow estimates to
compensate for easier, short-term motion like camera shake, allowing annotators
to focus on harder sections of video. We validate our pipeline on synthetic
data and propose a simple end-to-end point tracking model TAP-Net, showing that
it outperforms all prior methods on our benchmark when trained on synthetic
data.
- Abstract(参考訳): 映像からのジェネリックモーションの理解は、物体の追跡だけでなく、その表面がどのように変形し動くかも知覚する。
この情報は3次元形状、物理的特性、物体の相互作用に関する推論に有用である。
より長いビデオクリップよりも表面上の任意の物理点を追跡するという問題は注目されているが、これまで評価のためのデータセットやベンチマークは存在しなかった。
本稿では,まず問題を定式化し,任意の点(TAP)を追尾する。
そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオを組み合わせたベンチマークを行った。
ベンチマークの作成の中心となるのは、光学フローの推定値を使って、カメラシェイクのような簡単で短期的な動きを補償する、新しい半自動的なクラウドソーシングパイプラインです。
合成データに関するパイプラインを検証するとともに、単純なエンドツーエンドのポイントトラッキングモデルtap-netを提案し、合成データでトレーニングされた場合のベンチマークのすべてのメソッドを上回っています。
関連論文リスト
- Dense Optical Tracking: Connecting the Dots [82.79642869586587]
DOTは、ビデオにおけるポイントトラッキングの問題を解決するための、新しくてシンプルで効率的な方法である。
OmniMotionのような高度な"ユニバーサルトラッカー"を上回り、CoTrackerのような最良のポイントトラッキングアルゴリズムと同等か、あるいはそれ以上の精度で、DOTが現在の光フロー技術よりもはるかに正確であることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:59:59Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - BCOT: A Markerless High-Precision 3D Object Tracking Benchmark [15.8625561193144]
実動物体の正確な3次元ポーズを推定するためのマルチビュー手法を提案し, 両眼データを用いてモノクロテクスチャレス3次元物体追跡のための新しいベンチマークを構築した。
オブジェクト中心モデルに基づいて、すべてのビューにおいて形状再投影制約を最小化することにより、オブジェクトのポーズを協調的に最適化する。
新しいベンチマークデータセットには、20のテクスチャレスオブジェクト、22のシーン、404の動画シーケンス、126Kの画像が含まれています。
論文 参考訳(メタデータ) (2022-03-25T03:55:03Z) - Exploring Simple 3D Multi-Object Tracking for Autonomous Driving [10.921208239968827]
LiDARポイントクラウドにおける3Dマルチオブジェクトトラッキングは、自動運転車にとって重要な要素である。
既存の手法は、主にトラッキング・バイ・検出パイプラインに基づいており、検出アソシエーションのマッチングステップが必然的に必要である。
我々は,手作りの追跡パラダイムをシンプルにするために,原点雲からの共同検出と追跡のためのエンドツーエンドのトレーニング可能なモデルを提案する。
論文 参考訳(メタデータ) (2021-08-23T17:59:22Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。