論文の概要: StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart
- arxiv url: http://arxiv.org/abs/2411.14295v1
- Date: Thu, 21 Nov 2024 16:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:18:54.887767
- Title: StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart
- Title(参考訳): StereoCrafter-Zero:ノイズリスタートによるゼロショットステレオビデオ生成
- Authors: Jian Shi, Qian Wang, Zhenyu Li, Peter Wonka,
- Abstract要約: ゼロショットステレオビデオ生成のための新しいフレームワークである textitStereoCrafter-Zero を紹介する。
主なイノベーションは、ステレオ認識の潜伏剤を初期化するためのノイズの多い再起動戦略と反復的な精錬プロセスである。
我々のフレームワークは様々な拡散モデルに対して堅牢で適応可能であり、ゼロショットステレオビデオ生成のための新しいベンチマークを設定している。
- 参考スコア(独自算出の注目度): 45.27524689977587
- License:
- Abstract: Generating high-quality stereo videos that mimic human binocular vision requires maintaining consistent depth perception and temporal coherence across frames. While diffusion models have advanced image and video synthesis, generating high-quality stereo videos remains challenging due to the difficulty of maintaining consistent temporal and spatial coherence between left and right views. We introduce \textit{StereoCrafter-Zero}, a novel framework for zero-shot stereo video generation that leverages video diffusion priors without the need for paired training data. Key innovations include a noisy restart strategy to initialize stereo-aware latents and an iterative refinement process that progressively harmonizes the latent space, addressing issues like temporal flickering and view inconsistencies. Comprehensive evaluations, including quantitative metrics and user studies, demonstrate that \textit{StereoCrafter-Zero} produces high-quality stereo videos with improved depth consistency and temporal smoothness, even when depth estimations are imperfect. Our framework is robust and adaptable across various diffusion models, setting a new benchmark for zero-shot stereo video generation and enabling more immersive visual experiences. Our code can be found in~\url{https://github.com/shijianjian/StereoCrafter-Zero}.
- Abstract(参考訳): 人間の両眼視を模倣する高品質なステレオビデオを生成するには、フレーム間の一貫した深度知覚と時間的コヒーレンスを維持する必要がある。
拡散モデルには高度な画像合成とビデオ合成があるが、左右の視点間の時間的・空間的一貫性の維持が困難であるため、高品質なステレオビデオの生成は依然として困難である。
ゼロショットステレオビデオ生成のための新しいフレームワークである \textit{StereoCrafter-Zero} を紹介する。
主要なイノベーションには、ステレオ認識された潜伏者を初期化するためのうるさい再起動戦略や、潜伏空間を徐々に調和させる反復的な改善プロセス、時間的ひねりや不整合性といった問題に対処することが含まれる。
定量的メトリクスやユーザスタディを含む包括的評価では,深さ推定が不完全である場合でも,深さの整合性と時間的滑らか性を改善した高品質なステレオビデオが生成されることが示されている。
我々のフレームワークは様々な拡散モデルに対して堅牢で適応可能であり、ゼロショットステレオビデオ生成のための新しいベンチマークを設定し、より没入的な視覚体験を可能にする。
私たちのコードは~\url{https://github.com/shijianjian/StereoCrafter-Zero}で見られます。
関連論文リスト
- ImmersePro: End-to-End Stereo Video Synthesis Via Implicit Disparity Learning [43.105154507379076]
textitImmerseProは、シングルビュービデオをステレオビデオに変換するために特別に設計されたフレームワークである。
textitImmerseProは暗黙の相違ガイダンスを採用しており、明示的な相違マップを必要とせずにビデオシーケンスからステレオペアを生成することができる。
本実験は,高画質ステレオビデオ作成におけるtextitImmersePro の有効性を実証し,既存の手法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-09-30T22:19:32Z) - Stereo Matching in Time: 100+ FPS Video Stereo Matching for Extended
Reality [65.70936336240554]
リアルタイムステレオマッチング(Real-time Stereo Matching)は、屋内3D理解、ビデオパススルー、混合現実感ゲームなど、多くの拡張現実感(XR)アプリケーションのための基盤となるアルゴリズムである。
最大の課題の1つは、ヘッドマウントのVR/ARメガネによってキャプチャされた高品質な屋内ビデオステレオトレーニングデータセットの欠如である。
室内シーンのレンダリングと6-DoF移動VR/ARヘッドマウントディスプレイ(HMD)によるリアルなカメラモーションを含む,新しいステレオ合成データセットを提案する。
これにより既存のアプローチの評価が促進され、屋内拡張現実シナリオのさらなる研究が促進される。
論文 参考訳(メタデータ) (2023-09-08T07:53:58Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。