論文の概要: StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart
- arxiv url: http://arxiv.org/abs/2411.14295v2
- Date: Wed, 12 Mar 2025 22:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:49:49.048573
- Title: StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart
- Title(参考訳): StereoCrafter-Zero:ノイズリスタートによるゼロショットステレオビデオ生成
- Authors: Jian Shi, Qian Wang, Zhenyu Li, Ramzi Idoughi, Peter Wonka,
- Abstract要約: ゼロショットステレオビデオ生成のための新しいフレームワークであるStereoCrafter-Zeroを紹介する。
主なイノベーションは、ステレオ認識の潜在表現を初期化するノイズリスタート戦略である。
我々は,StereoCrafter-Zeroが高精細度と時間的滑らかさを向上した高品質なステレオビデオを生成することを示す。
- 参考スコア(独自算出の注目度): 44.671043951223574
- License:
- Abstract: Generating high-quality stereo videos that mimic human binocular vision requires consistent depth perception and temporal coherence across frames. Despite advances in image and video synthesis using diffusion models, producing high-quality stereo videos remains a challenging task due to the difficulty of maintaining consistent temporal and spatial coherence between left and right views. We introduce StereoCrafter-Zero, a novel framework for zero-shot stereo video generation that leverages video diffusion priors without requiring paired training data. Our key innovations include a noisy restart strategy to initialize stereo-aware latent representations and an iterative refinement process that progressively harmonizes the latent space, addressing issues like temporal flickering and view inconsistencies. In addition, we propose the use of dissolved depth maps to streamline latent space operations by reducing high-frequency depth information. Our comprehensive evaluations, including quantitative metrics and user studies, demonstrate that StereoCrafter-Zero produces high-quality stereo videos with enhanced depth consistency and temporal smoothness, even when depth estimations are imperfect. Our framework is robust and adaptable across various diffusion models, setting a new benchmark for zero-shot stereo video generation and enabling more immersive visual experiences. Our code is in https://github.com/shijianjian/StereoCrafter-Zero.
- Abstract(参考訳): 人間の両眼視を模倣する高品質なステレオビデオを生成するには、フレーム間の一貫した深度知覚と時間的コヒーレンスが必要である。
拡散モデルを用いた画像合成やビデオ合成の進歩にもかかわらず、高品質なステレオビデオの作成は、左右の視点間の時間的・空間的一貫性の維持が困難であるため、依然として難しい課題である。
我々は,ゼロショットステレオビデオ生成のための新しいフレームワークであるStereoCrafter-Zeroを紹介した。
私たちの重要なイノベーションには、ステレオ認識の潜伏表現を初期化するためのノイズの多い再起動戦略や、潜伏空間を段階的に調和させる反復的な改善プロセスが含まれます。
さらに,高周波深度情報を削減することで,潜時空間操作の効率化を図るために,溶存深度マップを用いた手法を提案する。
定量的な測定値やユーザスタディを含む包括的評価から,StereoCrafter-Zeroは,深さ推定が不完全である場合でも,深度一貫性と時間的滑らかさを向上した高品質なステレオビデオを生成することを示した。
我々のフレームワークは様々な拡散モデルに対して堅牢で適応可能であり、ゼロショットステレオビデオ生成のための新しいベンチマークを設定し、より没入的な視覚体験を可能にする。
私たちのコードはhttps://github.com/shijianjian/StereoCrafter-Zero.orgにある。
関連論文リスト
- ImmersePro: End-to-End Stereo Video Synthesis Via Implicit Disparity Learning [43.105154507379076]
textitImmerseProは、シングルビュービデオをステレオビデオに変換するために特別に設計されたフレームワークである。
textitImmerseProは暗黙の相違ガイダンスを採用しており、明示的な相違マップを必要とせずにビデオシーケンスからステレオペアを生成することができる。
本実験は,高画質ステレオビデオ作成におけるtextitImmersePro の有効性を実証し,既存の手法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-09-30T22:19:32Z) - Stereo Matching in Time: 100+ FPS Video Stereo Matching for Extended
Reality [65.70936336240554]
リアルタイムステレオマッチング(Real-time Stereo Matching)は、屋内3D理解、ビデオパススルー、混合現実感ゲームなど、多くの拡張現実感(XR)アプリケーションのための基盤となるアルゴリズムである。
最大の課題の1つは、ヘッドマウントのVR/ARメガネによってキャプチャされた高品質な屋内ビデオステレオトレーニングデータセットの欠如である。
室内シーンのレンダリングと6-DoF移動VR/ARヘッドマウントディスプレイ(HMD)によるリアルなカメラモーションを含む,新しいステレオ合成データセットを提案する。
これにより既存のアプローチの評価が促進され、屋内拡張現実シナリオのさらなる研究が促進される。
論文 参考訳(メタデータ) (2023-09-08T07:53:58Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。