論文の概要: TAPVid-360: Tracking Any Point in 360 from Narrow Field of View Video
- arxiv url: http://arxiv.org/abs/2511.21946v1
- Date: Wed, 26 Nov 2025 22:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.313247
- Title: TAPVid-360: Tracking Any Point in 360 from Narrow Field of View Video
- Title(参考訳): TAPVID-360:360度で視界の狭い場所を追跡
- Authors: Finlay G. C. Hudson, James A. D. Gardner, William A. P. Smith,
- Abstract要約: TAPVid-360は,ビデオシーケンスを横断するシーンポイントに対する3次元方向の予測を必要とする新しいタスクである。
我々は360度動画を監督の源として利用し、真実の方向を計算しながら視野を狭くする。
我々のベースラインはCoTracker v3に適応し、方向更新のためのポイント毎の回転を予測し、既存のTAPおよびTAPVid 3D法より優れている。
- 参考スコア(独自算出の注目度): 7.009814571727852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans excel at constructing panoramic mental models of their surroundings, maintaining object permanence and inferring scene structure beyond visible regions. In contrast, current artificial vision systems struggle with persistent, panoramic understanding, often processing scenes egocentrically on a frame-by-frame basis. This limitation is pronounced in the Track Any Point (TAP) task, where existing methods fail to track 2D points outside the field of view. To address this, we introduce TAPVid-360, a novel task that requires predicting the 3D direction to queried scene points across a video sequence, even when far outside the narrow field of view of the observed video. This task fosters learning allocentric scene representations without needing dynamic 4D ground truth scene models for training. Instead, we exploit 360 videos as a source of supervision, resampling them into narrow field-of-view perspectives while computing ground truth directions by tracking points across the full panorama using a 2D pipeline. We introduce a new dataset and benchmark, TAPVid360-10k comprising 10k perspective videos with ground truth directional point tracking. Our baseline adapts CoTracker v3 to predict per-point rotations for direction updates, outperforming existing TAP and TAPVid 3D methods.
- Abstract(参考訳): 人間は、周囲のパノラマ的精神モデルの構築、オブジェクトの永続性維持、および可視領域を超えてシーン構造の推定に優れる。
対照的に、現在の人工視覚システムは永続的でパノラマ的な理解に苦しむ。
この制限は、既存のメソッドが視野外の2Dポイントを追跡するのに失敗したトラック・アニー・ポイント(TAP)タスクで発音される。
TAPVid-360は,観察された映像の狭い視野外であっても,映像列を横断するシーンポイントの3次元方向の予測を必要とする新しいタスクである。
このタスクは、トレーニングに動的4D地上真実シーンモデルを必要とせずに、アロセントリックなシーン表現の学習を促進する。
代わりに、360度動画を監督の源として利用し、2Dパイプラインを使用して全パノラマを横断する点を追跡することによって、それらを視野の狭い視野に再サンプリングする。
そこで,本研究では,10k視点ビデオと地上の真偽方向追跡機能を備えた新しいデータセットとベンチマーク,TAPVid360-10kを提案する。
我々のベースラインはCoTracker v3に適応し、方向更新のためのポイント毎の回転を予測し、既存のTAPおよびTAPVid 3D法より優れている。
関連論文リスト
- SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。
これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。
このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文 参考訳(メタデータ) (2025-07-16T17:59:03Z) - WorldExplorer: Towards Generating Fully Navigable 3D Scenes [48.16064304951891]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。