Fugu-MT 論文翻訳(概要): TAPVid-3D: A Benchmark for Tracking Any Point in 3D

論文の概要: TAPVid-3D: A Benchmark for Tracking Any Point in 3D

arxiv url: http://arxiv.org/abs/2407.05921v1
Date: Mon, 8 Jul 2024 13:28:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 15:40:39.076782
Title: TAPVid-3D: A Benchmark for Tracking Any Point in 3D
Title（参考訳）: TAPVid-3D: 任意の点を3Dで追跡するためのベンチマーク
Authors: Skanda Koppula, Ignacio Rocco, Yi Yang, Joe Heyward, João Carreira, Andrew Zisserman, Gabriel Brostow, Carl Doersch,
Abstract要約: 我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
参考スコア（独自算出の注目度）: 63.060421798990845
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce a new benchmark, TAPVid-3D, for evaluating the task of long-range Tracking Any Point in 3D (TAP-3D). While point tracking in two dimensions (TAP) has many benchmarks measuring performance on real-world videos, such as TAPVid-DAVIS, three-dimensional point tracking has none. To this end, leveraging existing footage, we build a new benchmark for 3D point tracking featuring 4,000+ real-world videos, composed of three different data sources spanning a variety of object types, motion patterns, and indoor and outdoor environments. To measure performance on the TAP-3D task, we formulate a collection of metrics that extend the Jaccard-based metric used in TAP to handle the complexities of ambiguous depth scales across models, occlusions, and multi-track spatio-temporal smoothness. We manually verify a large sample of trajectories to ensure correct video annotations, and assess the current state of the TAP-3D task by constructing competitive baselines using existing tracking models. We anticipate this benchmark will serve as a guidepost to improve our ability to understand precise 3D motion and surface deformation from monocular video. Code for dataset download, generation, and model evaluation is available at https://tapvid3d.github.io
Abstract（参考訳）: TAPVid-3Dは,3Dにおける長距離追跡任意の点(TAP-3D)の課題を評価するための新しいベンチマークである。 2次元の点追跡(TAP)は、TAPVid-DAVISのような実世界のビデオのパフォーマンスを計測する多くのベンチマークを持つが、3次元の点追跡は存在しない。この目的のために、既存の映像を活用して、さまざまなオブジェクトタイプ、モーションパターン、屋内および屋外環境にまたがる3つの異なるデータソースからなる、4000以上の実世界のビデオを含む3Dポイントトラッキングのための新しいベンチマークを構築した。 TAP-3D タスクの性能を測定するために,TAP で使用される Jaccard ベースのメトリクスを拡張したメトリクスの集合を定式化し,モデル,オクルージョン,多トラック時空間のスムーズさといった不明瞭な深度スケールの複雑さに対処する。トラジェクトリの大規模なサンプルを手動で検証し,既存の追跡モデルを用いて競合ベースラインを構築することにより,TAP-3Dタスクの現況を評価する。我々は、このベンチマークが、モノクロビデオから正確な3次元の動きと表面の変形を理解する能力を改善するためのガイドポストになることを期待している。データセットのダウンロード、生成、モデル評価のためのコードはhttps://tapvid3d.github.ioで公開されている。

関連論文リスト

SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文参考訳（メタデータ） (2025-07-16T17:59:03Z)
TAPIP3D: Tracking Any Point in Persistent 3D Geometry [25.357437591411347]
本稿では,モノクロおよびRGB-Dビデオにおける長期3次元点追跡の新しい手法であるTAPIP3Dを紹介する。 TAPIP3Dは、ビデオをカメラ安定化機能クラウドとして表現し、深度とカメラモーション情報を活用する。以上の結果から,カメラモーションの補正によりトラッキング性能が向上することが示唆された。
論文参考訳（メタデータ） (2025-04-20T19:09:43Z)
St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文参考訳（メタデータ） (2025-04-17T17:55:58Z)
Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction [56.32589034046427]
本研究では,ダイナミックポイントマップ(DPM)を導入し,モーションセグメンテーション,シーンフロー推定,3次元物体追跡,2次元対応などの4次元タスクをサポートする標準点マップを拡張した。我々は,合成データと実データを組み合わせたDPM予測器を訓練し,映像深度予測,ダイナミックポイントクラウド再構成,3次元シーンフロー,オブジェクトポーズ追跡,最先端性能の達成など,様々なベンチマークで評価する。
論文参考訳（メタデータ） (2025-03-20T16:41:50Z)
PillarTrack: Redesigning Pillar-based Transformer Network for Single Object Tracking on Point Clouds [5.524413892353708]
LiDARベースの3Dオブジェクトトラッキング(3D SOT)は、ロボット工学と自動運転において重要な問題である。柱型3Dオブジェクト追跡フレームワークであるPillarTrackを提案する。 PillarTrackは、KITTIとnuScenesデータセットで最先端のパフォーマンスを実現し、リアルタイムトラッキング速度を実現する。
論文参考訳（メタデータ） (2024-04-11T06:06:56Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文参考訳（メタデータ） (2023-04-13T11:32:36Z)
TAP-Vid: A Benchmark for Tracking Any Point in a Video [84.94877216665793]
我々は、より長いビデオクリップで表面上の任意の物理点を追跡するという問題を定式化し、任意の点(TAP)を追尾する。そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオとを併用したベンチマーク,TAP-Vidを提案する。本稿では, 簡易な終端点追跡モデルTAP-Netを提案する。
論文参考訳（メタデータ） (2022-11-07T17:57:02Z)
Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving [3.8073142980733]
本稿では,モノクローナルビデオのみからエンドツーエンドに3D検出と3D追跡を共同で行うことを提案する。 Time3Dは21.4%のAMOTA、13.6%のAMOTPをnuScenesの3D追跡ベンチマークで達成し、全競合を抜いた。
論文参考訳（メタデータ） (2022-05-30T06:41:10Z)
3D Visual Tracking Framework with Deep Learning for Asteroid Exploration [22.808962211830675]
本稿では,3次元追跡のための高精度かつリアルタイムな手法について検討する。両眼ビデオシーケンス、深度マップ、様々な小惑星の点雲を含む、新しい大規模な3D小惑星追跡データセットが提示されている。深層学習に基づく3DトラッキングフレームワークTrack3Dを提案する。このフレームワークは,2次元単分子トラッカーと,新しい軽量アモーダル軸整合バウンディングボックスネットワークであるA3BoxNetを備える。
論文参考訳（メタデータ） (2021-11-21T04:14:45Z)
Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-12T15:30:02Z)
Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文参考訳（メタデータ） (2020-08-04T02:59:23Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。