論文の概要: Depth Any Video with Scalable Synthetic Data
- arxiv url: http://arxiv.org/abs/2410.10815v1
- Date: Mon, 14 Oct 2024 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:24:58.937907
- Title: Depth Any Video with Scalable Synthetic Data
- Title(参考訳): スケーラブルな合成データによるビデオの深さ
- Authors: Honghui Yang, Di Huang, Wei Yin, Chunhua Shen, Haifeng Liu, Xiaofei He, Binbin Lin, Wanli Ouyang, Tong He,
- Abstract要約: 多様な合成環境からリアルタイムのビデオ深度データをキャプチャする,スケーラブルな合成データパイプラインを開発した。
我々は、生成的ビデオ拡散モデルの強力な先駆を生かして、実世界の動画を効果的に処理する。
我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
- 参考スコア(独自算出の注目度): 98.42356740981839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video depth estimation has long been hindered by the scarcity of consistent and scalable ground truth data, leading to inconsistent and unreliable results. In this paper, we introduce Depth Any Video, a model that tackles the challenge through two key innovations. First, we develop a scalable synthetic data pipeline, capturing real-time video depth data from diverse synthetic environments, yielding 40,000 video clips of 5-second duration, each with precise depth annotations. Second, we leverage the powerful priors of generative video diffusion models to handle real-world videos effectively, integrating advanced techniques such as rotary position encoding and flow matching to further enhance flexibility and efficiency. Unlike previous models, which are limited to fixed-length video sequences, our approach introduces a novel mixed-duration training strategy that handles videos of varying lengths and performs robustly across different frame rates-even on single frames. At inference, we propose a depth interpolation method that enables our model to infer high-resolution video depth across sequences of up to 150 frames. Our model outperforms all previous generative depth models in terms of spatial accuracy and temporal consistency.
- Abstract(参考訳): ビデオ深度推定は、一貫性と拡張性のある地上真実データの不足によって長い間妨げられてきた。
本稿では,2つの重要なイノベーションを通じて課題に取り組むモデルであるDepth Any Videoを紹介する。
まず, 多様な合成環境からリアルタイムのビデオ深度データを抽出し, 5秒間のビデオクリップを4万本生成し, それぞれに正確な深度アノテーションを付与する,スケーラブルな合成データパイプラインを開発した。
第2に,実世界の映像を効果的に扱うために生成ビデオ拡散モデルの強力な先行技術を活用し,回転位置符号化やフローマッチングといった高度な技術を統合し,柔軟性と効率を向上させる。
固定長動画列に限られる従来のモデルとは異なり,本手法では,異なるフレーム長の動画を処理し,フレーム単位のフレームレートで頑健に処理する,新しい混合デューレーショントレーニング手法を導入する。
本稿では,最大150フレームのシーケンスにまたがる高解像度映像深度を推定できる深度補間法を提案する。
我々のモデルは、空間的精度と時間的一貫性の観点から、過去のすべての生成深度モデルより優れている。
関連論文リスト
- Making Every Frame Matter: Continuous Video Understanding for Large Models via Adaptive State Modeling [14.450847211200292]
マルチモダリティアプリケーションの台頭に伴い、ビデオ理解はますます重要になっている。
適応状態モデリングによりこれらの問題を克服する新しいシステムC-VUEを導入する。
C-VUEには3つの重要な設計がある。第1に、歴史的ビデオ情報を保持するためにビデオ認識アプローチを使用する長距離履歴モデリング技術である。
2つ目は空間冗長性低減手法で、時間的関係に基づく歴史モデリングの効率を高める。
論文 参考訳(メタデータ) (2024-10-19T05:50:00Z) - DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos [51.90501863934735]
DepthCrafterは、オープンワールドビデオの複雑な詳細とともに、時間的に一貫した長い深さのシーケンスを生成する。
トレーニング手法により,最大110フレームまでの異なる長さの深度シーケンスを一度に生成できる。
DepthCrafterは、深度に基づく視覚効果や条件付きビデオ生成など、さまざまなダウンストリームアプリケーションを容易にする。
論文 参考訳(メタデータ) (2024-09-03T17:52:03Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation [136.5813547244979]
高品質な人中心型ビデオ深度生成のためのIDOL(unIfied Dual-mOdal Latent diffusion)を提案する。
我々のIDOLは2つの新しい設計で構成されている。第一に、デュアルモーダル生成を可能にし、ビデオと深度生成の間の情報交換を最大化する。
次に,映像と深度特徴運動場との整合性を実現する動きの整合性損失を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:36:54Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。