論文の概要: SpatialVID: A Large-Scale Video Dataset with Spatial Annotations
- arxiv url: http://arxiv.org/abs/2509.09676v1
- Date: Thu, 11 Sep 2025 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.514056
- Title: SpatialVID: A Large-Scale Video Dataset with Spatial Annotations
- Title(参考訳): SpaceVID:空間アノテーション付き大規模ビデオデータセット
- Authors: Jiahao Wang, Yufeng Yuan, Rujie Zheng, Youtian Lin, Jian Gao, Lin-Zhuo Chen, Yajie Bao, Yi Zhang, Chang Zeng, Yanxi Zhou, Xiaoxiao Long, Hao Zhu, Zhaoxiang Zhang, Xun Cao, Yao Yao,
- Abstract要約: SpaceVIDは、さまざまなシーン、カメラの動き、フレームごとのカメラポーズ、奥行き、動き指示などの密集した3Dアノテーションを備えた、Wildのビデオのデータセットである。
21,000時間以上の生のビデオを収集し、階層的なフィルタリングパイプラインを通して270万のクリップに処理します。
その後のアノテーションパイプラインは、カメラポーズ、深度マップ、ダイナミックマスク、構造化キャプション、シリアライズされたモーションインストラクションなど、これらのクリップを詳細な空間的および意味的な情報で強化する。
- 参考スコア(独自算出の注目度): 58.01259302233675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant progress has been made in spatial intelligence, spanning both spatial reconstruction and world exploration. However, the scalability and real-world fidelity of current models remain severely constrained by the scarcity of large-scale, high-quality training data. While several datasets provide camera pose information, they are typically limited in scale, diversity, and annotation richness, particularly for real-world dynamic scenes with ground-truth camera motion. To this end, we collect \textbf{SpatialVID}, a dataset consists of a large corpus of in-the-wild videos with diverse scenes, camera movements and dense 3D annotations such as per-frame camera poses, depth, and motion instructions. Specifically, we collect more than 21,000 hours of raw video, and process them into 2.7 million clips through a hierarchical filtering pipeline, totaling 7,089 hours of dynamic content. A subsequent annotation pipeline enriches these clips with detailed spatial and semantic information, including camera poses, depth maps, dynamic masks, structured captions, and serialized motion instructions. Analysis of SpatialVID's data statistics reveals a richness and diversity that directly foster improved model generalization and performance, establishing it as a key asset for the video and 3D vision research community.
- Abstract(参考訳): 空間的インテリジェンスにおいて、空間的再構築と世界探査の両方に重要な進歩があった。
しかし、現在のモデルのスケーラビリティと実世界の忠実さは、大規模で高品質なトレーニングデータの不足によって厳しい制約を受け続けている。
いくつかのデータセットは、カメラのポーズ情報を提供するが、通常、スケール、多様性、アノテーションの豊かさに制限されている。
この目的のために,多彩なシーン,カメラの動き,フレームごとのカメラポーズ,奥行き,動き指示などの高密度な3Dアノテーションを備えた,膨大な範囲の動画コーパスからなるデータセットである‘textbf{SpatialVID} を収集した。
具体的には、21,000時間以上の生ビデオを収集し、それらを270万のクリップに階層的なフィルタリングパイプラインで処理し、合計7,089時間の動的コンテンツを処理します。
その後のアノテーションパイプラインは、カメラポーズ、深度マップ、ダイナミックマスク、構造化キャプション、シリアライズされたモーションインストラクションなど、これらのクリップを詳細な空間的および意味的な情報で強化する。
空間VIDのデータ統計の分析により、モデル一般化と性能の向上を直接促進する豊かさと多様性が明らかとなり、ビデオと3Dビジョン研究コミュニティにとって重要な資産として確立された。
関連論文リスト
- Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。
本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。
画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文 参考訳(メタデータ) (2025-07-24T14:53:26Z) - Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:59:04Z) - Dynamic Camera Poses and Where to Find Them [36.249380390918816]
我々はDynPose-100Kを紹介した。DynPose-100Kはカメラポーズを付加した動的インターネットビデオの大規模データセットである。
ポーズ推定には,最新のポイントトラッキング,動的マスキング,構造からの移動といった手法を組み合わせる。
分析と実験により,DynPose-100Kは大規模かつ多様であることがわかった。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - 360 in the Wild: Dataset for Depth Prediction and View Synthesis [66.58513725342125]
大規模な360$circ$ビデオデータセットを野放しに導入する。
このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。
データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
論文 参考訳(メタデータ) (2024-06-27T05:26:38Z) - DiVa-360: The Dynamic Visual Dataset for Immersive Neural Fields [3.94718692655789]
DiVa-360は、リアルタイムの360度ダイナミック・ヴィジュアル・データセットであり、同期された高解像度および長期のマルチビュー・ビデオ・シーケンスを含んでいる。
我々は、Diva-360上で最先端の動的ニューラルネットワーク手法をベンチマークし、既存の手法と長期的ニューラルネットワークキャプチャにおける今後の課題について考察する。
論文 参考訳(メタデータ) (2023-07-31T17:59:48Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Multi-View Video-Based 3D Hand Pose Estimation [11.65577683784217]
提案するマルチビュービデオベース3Dハンドデータセットは,手動のマルチビュービデオと地動3Dポーズラベルから構成される。
私たちのデータセットには、4,560のビデオで利用可能な402,000以上の合成手画像が含まれています。
次に、手の視覚的埋め込みを得るために、画像エンコーダからなるニューラルネットワークであるMuViHandNetを実装した。
論文 参考訳(メタデータ) (2021-09-24T05:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。