論文の概要: TAPVid-360: Tracking Any Point in 360 from Narrow Field of View Video
- arxiv url: http://arxiv.org/abs/2511.21946v1
- Date: Wed, 26 Nov 2025 22:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.313247
- Title: TAPVid-360: Tracking Any Point in 360 from Narrow Field of View Video
- Title(参考訳): TAPVID-360:360度で視界の狭い場所を追跡
- Authors: Finlay G. C. Hudson, James A. D. Gardner, William A. P. Smith,
- Abstract要約: TAPVid-360は,ビデオシーケンスを横断するシーンポイントに対する3次元方向の予測を必要とする新しいタスクである。
我々は360度動画を監督の源として利用し、真実の方向を計算しながら視野を狭くする。
我々のベースラインはCoTracker v3に適応し、方向更新のためのポイント毎の回転を予測し、既存のTAPおよびTAPVid 3D法より優れている。
- 参考スコア(独自算出の注目度): 7.009814571727852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans excel at constructing panoramic mental models of their surroundings, maintaining object permanence and inferring scene structure beyond visible regions. In contrast, current artificial vision systems struggle with persistent, panoramic understanding, often processing scenes egocentrically on a frame-by-frame basis. This limitation is pronounced in the Track Any Point (TAP) task, where existing methods fail to track 2D points outside the field of view. To address this, we introduce TAPVid-360, a novel task that requires predicting the 3D direction to queried scene points across a video sequence, even when far outside the narrow field of view of the observed video. This task fosters learning allocentric scene representations without needing dynamic 4D ground truth scene models for training. Instead, we exploit 360 videos as a source of supervision, resampling them into narrow field-of-view perspectives while computing ground truth directions by tracking points across the full panorama using a 2D pipeline. We introduce a new dataset and benchmark, TAPVid360-10k comprising 10k perspective videos with ground truth directional point tracking. Our baseline adapts CoTracker v3 to predict per-point rotations for direction updates, outperforming existing TAP and TAPVid 3D methods.
- Abstract(参考訳): 人間は、周囲のパノラマ的精神モデルの構築、オブジェクトの永続性維持、および可視領域を超えてシーン構造の推定に優れる。
対照的に、現在の人工視覚システムは永続的でパノラマ的な理解に苦しむ。
この制限は、既存のメソッドが視野外の2Dポイントを追跡するのに失敗したトラック・アニー・ポイント(TAP)タスクで発音される。
TAPVid-360は,観察された映像の狭い視野外であっても,映像列を横断するシーンポイントの3次元方向の予測を必要とする新しいタスクである。
このタスクは、トレーニングに動的4D地上真実シーンモデルを必要とせずに、アロセントリックなシーン表現の学習を促進する。
代わりに、360度動画を監督の源として利用し、2Dパイプラインを使用して全パノラマを横断する点を追跡することによって、それらを視野の狭い視野に再サンプリングする。
そこで,本研究では,10k視点ビデオと地上の真偽方向追跡機能を備えた新しいデータセットとベンチマーク,TAPVid360-10kを提案する。
我々のベースラインはCoTracker v3に適応し、方向更新のためのポイント毎の回転を予測し、既存のTAPおよびTAPVid 3D法より優れている。
関連論文リスト
- 360Anything: Geometry-Free Lifting of Images and Videos to 360° [51.50120114305155]
既存のアプローチは、パースペクティブと等方射影空間の間の明示的な幾何学的アライメントに依存している。
事前学習した拡散変換器上に構築された幾何学的自由度フレームワークである360Anythingを提案する。
提案手法は,映像と映像の視点-360生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2026-01-22T18:45:59Z) - Multi-View 3D Point Tracking [67.21282192436031]
本稿では,複数のカメラビューを用いた動的シーンにおける任意の点の追跡を目的とした,データ駆動型マルチビュー3Dポイントトラッカーについて紹介する。
本モデルでは,現実的な数のカメラを用いて直接3次元対応を推定する。
我々は5K合成多視点Kubricシーケンスをトレーニングし、2つの実世界のベンチマークで評価する。
論文 参考訳(メタデータ) (2025-08-28T17:58:20Z) - SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。
これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。
このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文 参考訳(メタデータ) (2025-07-16T17:59:03Z) - WorldExplorer: Towards Generating Fully Navigable 3D Scenes [48.16064304951891]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos [64.10180665546237]
360degのビデオは、私たちの周囲のより完全な視点を提供する。
既存のビデオモデルは、標準的なビデオを作るのに優れているが、完全なパノラマビデオを生成する能力は、まだ明らかになっていない。
高品質なデータフィルタリングパイプラインを開発し、双方向のトレーニングデータをキュレートし、360度ビデオ生成の品質を向上させる。
実験結果から,本モデルでは実写的でコヒーレントな360デグ映像を撮影できることが示された。
論文 参考訳(メタデータ) (2025-04-10T17:51:38Z) - SIRE: SE(3) Intrinsic Rigidity Embeddings [16.630400019100943]
本稿では,オブジェクトの動作発見とシーンの動的再構築のための自己教師型手法であるSIREを紹介する。
本手法では,画像エンコーダを用いてシーンの剛性と形状を推定し,簡単な4次元再構成損失によって教師される。
以上の結果から,SIREは映像データから強い幾何や動きの剛性を,最小限の監督で学習できることが示唆された。
論文 参考訳(メタデータ) (2025-03-10T18:00:30Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。