論文の概要: ViPE: Video Pose Engine for 3D Geometric Perception
- arxiv url: http://arxiv.org/abs/2508.10934v1
- Date: Tue, 12 Aug 2025 18:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.586452
- Title: ViPE: Video Pose Engine for 3D Geometric Perception
- Title(参考訳): ViPE:3D幾何学的認識のためのビデオポスエンジン
- Authors: Jiahui Huang, Qunjie Zhou, Hesam Rabeti, Aleksandr Korovko, Huan Ling, Xuanchi Ren, Tianchang Shen, Jun Gao, Dmitry Slepichev, Chen-Hsuan Lin, Jiawei Ren, Kevin Xie, Joydeep Biswas, Laura Leal-Taixe, Sanja Fidler,
- Abstract要約: ViPEは、便利で多用途なビデオ処理エンジンである。
それは、制約のない生のビデオから、カメラの内在、カメラの動き、および密集した近距離マップを効率的に推定する。
ViPEを使って大規模なビデオのアノテートを行います。
- 参考スコア(独自算出の注目度): 89.29576047606703
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Accurate 3D geometric perception is an important prerequisite for a wide range of spatial AI systems. While state-of-the-art methods depend on large-scale training data, acquiring consistent and precise 3D annotations from in-the-wild videos remains a key challenge. In this work, we introduce ViPE, a handy and versatile video processing engine designed to bridge this gap. ViPE efficiently estimates camera intrinsics, camera motion, and dense, near-metric depth maps from unconstrained raw videos. It is robust to diverse scenarios, including dynamic selfie videos, cinematic shots, or dashcams, and supports various camera models such as pinhole, wide-angle, and 360{\deg} panoramas. We have benchmarked ViPE on multiple benchmarks. Notably, it outperforms existing uncalibrated pose estimation baselines by 18%/50% on TUM/KITTI sequences, and runs at 3-5FPS on a single GPU for standard input resolutions. We use ViPE to annotate a large-scale collection of videos. This collection includes around 100K real-world internet videos, 1M high-quality AI-generated videos, and 2K panoramic videos, totaling approximately 96M frames -- all annotated with accurate camera poses and dense depth maps. We open-source ViPE and the annotated dataset with the hope of accelerating the development of spatial AI systems.
- Abstract(参考訳): 高精度な3次元幾何学的知覚は、幅広い空間的AIシステムにとって重要な前提条件である。
最先端の手法は大規模なトレーニングデータに依存するが、Wildビデオから一貫性のある正確な3Dアノテーションを取得することは依然として重要な課題である。
本稿では,このギャップを埋めるために設計された,便利で汎用的なビデオ処理エンジンであるViPEを紹介する。
ViPEは、制約のない生のビデオから、カメラの内在、カメラの動き、密集した近距離マップを効率的に推定する。
ダイナミック・セルフィー・ビデオ、シネマティック・ショット、ダッシュカムなど多様なシナリオに対して堅牢で、ピンホール、ワイドアングル、360{\deg}パノラマなどの様々なカメラモデルをサポートしている。
複数のベンチマークでViPEをベンチマークしました。
特に、TUM/KITTIシーケンスで既存の未校正ポーズ推定ベースラインを18%/50%上回り、標準入力解像度のために単一のGPU上で3-5FPSで動作する。
ViPEを使って大規模なビデオのアノテートを行います。
このコレクションには、現実世界のインターネットビデオ100万本、高品質のAI生成ビデオ100万本、パノラマビデオ2万本、合計で約96万フレームが含まれており、すべて正確なカメラポーズと深度マップで注釈付けされている。
我々は空間AIシステムの開発を加速するために,VPEと注釈付きデータセットをオープンソース化した。
関連論文リスト
- Dynamic Camera Poses and Where to Find Them [36.249380390918816]
我々はDynPose-100Kを紹介した。DynPose-100Kはカメラポーズを付加した動的インターネットビデオの大規模データセットである。
ポーズ推定には,最新のポイントトラッキング,動的マスキング,構造からの移動といった手法を組み合わせる。
分析と実験により,DynPose-100Kは大規模かつ多様であることがわかった。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Towards Understanding Camera Motions in Any Video [80.223048294482]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文 参考訳(メタデータ) (2025-04-21T18:34:57Z) - From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。
大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。
我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文 参考訳(メタデータ) (2024-12-10T18:59:44Z) - Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。
我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。
実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文 参考訳(メタデータ) (2024-12-04T07:09:59Z) - Video Depth without Video Models [34.11454612504574]
ビデオ深度推定は、各フレームに濃密な深度を推定することにより、単眼のビデオクリップを3Dに引き上げる。
単一画像潜在拡散モデル(LDM)を最先端のビデオ深度推定器にする方法を示す。
このモデルはRollingDepthと呼ばれ、(i)シングルイメージのLCMから派生したマルチフレーム深度推定器と、非常に短いビデオスニペットを深度スニペットにマッピングする。
論文 参考訳(メタデータ) (2024-11-28T14:50:14Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis [43.02778060969546]
制御可能な単分子動的ビュー合成パイプラインを提案する。
我々のモデルは入力として深度を必要としないし、明示的に3次元シーン形状をモデル化しない。
私たちのフレームワークは、リッチな動的シーン理解、ロボット工学の知覚、バーチャルリアリティのためのインタラクティブな3Dビデオ視聴体験において、強力なアプリケーションをアンロックできる可能性があると考えています。
論文 参考訳(メタデータ) (2024-05-23T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。