Fugu-MT 論文翻訳(概要): TAP-Vid: A Benchmark for Tracking Any Point in a Video

論文の概要: TAP-Vid: A Benchmark for Tracking Any Point in a Video

arxiv url: http://arxiv.org/abs/2211.03726v1
Date: Mon, 7 Nov 2022 17:57:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 15:44:33.552695
Title: TAP-Vid: A Benchmark for Tracking Any Point in a Video
Title（参考訳）: TAP-Vid:ビデオ中の任意のポイントを追跡するベンチマーク
Authors: Carl Doersch, Ankush Gupta, Larisa Markeeva, Adri\`a Recasens, Lucas Smaira, Yusuf Aytar, Jo\~ao Carreira, Andrew Zisserman, Yi Yang
Abstract要約: 我々は、より長いビデオクリップで表面上の任意の物理点を追跡するという問題を定式化し、任意の点(TAP)を追尾する。そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオとを併用したベンチマーク,TAP-Vidを提案する。本稿では, 簡易な終端点追跡モデルTAP-Netを提案する。
参考スコア（独自算出の注目度）: 84.94877216665793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generic motion understanding from video involves not only tracking objects, but also perceiving how their surfaces deform and move. This information is useful to make inferences about 3D shape, physical properties and object interactions. While the problem of tracking arbitrary physical points on surfaces over longer video clips has received some attention, no dataset or benchmark for evaluation existed, until now. In this paper, we first formalize the problem, naming it tracking any point (TAP). We introduce a companion benchmark, TAP-Vid, which is composed of both real-world videos with accurate human annotations of point tracks, and synthetic videos with perfect ground-truth point tracks. Central to the construction of our benchmark is a novel semi-automatic crowdsourced pipeline which uses optical flow estimates to compensate for easier, short-term motion like camera shake, allowing annotators to focus on harder sections of video. We validate our pipeline on synthetic data and propose a simple end-to-end point tracking model TAP-Net, showing that it outperforms all prior methods on our benchmark when trained on synthetic data.
Abstract（参考訳）: 映像からのジェネリックモーションの理解は、物体の追跡だけでなく、その表面がどのように変形し動くかも知覚する。この情報は3次元形状、物理的特性、物体の相互作用に関する推論に有用である。より長いビデオクリップよりも表面上の任意の物理点を追跡するという問題は注目されているが、これまで評価のためのデータセットやベンチマークは存在しなかった。本稿では,まず問題を定式化し,任意の点(TAP)を追尾する。そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオを組み合わせたベンチマークを行った。ベンチマークの作成の中心となるのは、光学フローの推定値を使って、カメラシェイクのような簡単で短期的な動きを補償する、新しい半自動的なクラウドソーシングパイプラインです。合成データに関するパイプラインを検証するとともに、単純なエンドツーエンドのポイントトラッキングモデルtap-netを提案し、合成データでトレーニングされた場合のベンチマークのすべてのメソッドを上回っています。

関連論文リスト

GIFT: Generated Indoor video frames for Texture-less point tracking [37.78982740178578]
本研究では,3次元物体のテクスチャ強度を評価する指標を提案する。 GIFTは、1800の屋内ビデオシーケンスとリッチアノテーションからなる、難しい合成ベンチマークである。グラウンド真理点を任意に割り当てる既存のデータセットとは異なり、GIFTは分類された対象オブジェクトにグラウンド真理を正確に固定する。
論文参考訳（メタデータ） (2025-03-17T08:58:33Z)
Long-Term 3D Point Tracking By Cost Volume Fusion [2.3411633024711573]
テストタイムの微調整を必要とせず,新たなポイントやビデオに一般化する3Dの長期追跡のための,最初のディープラーニングフレームワークを提案する。モデルでは,複数過去の外観と動き情報をトランスフォーマーアーキテクチャで統合し,全体的なトラッキング性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-18T09:34:47Z)
TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文参考訳（メタデータ） (2024-07-08T13:28:47Z)
Dense Optical Tracking: Connecting the Dots [82.79642869586587]
DOTは、ビデオにおけるポイントトラッキングの問題を解決するための、新しくてシンプルで効率的な方法である。 OmniMotionのような高度な"ユニバーサルトラッカー"を上回り、CoTrackerのような最良のポイントトラッキングアルゴリズムと同等か、あるいはそれ以上の精度で、DOTが現在の光フロー技術よりもはるかに正確であることを示す。
論文参考訳（メタデータ） (2023-12-01T18:59:59Z)
PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文参考訳（メタデータ） (2023-07-27T17:58:11Z)
TAPIR: Tracking Any Point with per-frame Initialization and temporal Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文参考訳（メタデータ） (2023-06-14T17:07:51Z)
Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-12T15:30:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。