Fugu-MT 論文翻訳(概要): StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart

論文の概要: StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart

arxiv url: http://arxiv.org/abs/2411.14295v2
Date: Wed, 12 Mar 2025 22:18:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 14:52:25.541463
Title: StereoCrafter-Zero: Zero-Shot Stereo Video Generation with Noisy Restart
Title（参考訳）: StereoCrafter-Zero:ノイズリスタートによるゼロショットステレオビデオ生成
Authors: Jian Shi, Qian Wang, Zhenyu Li, Ramzi Idoughi, Peter Wonka,
Abstract要約: ゼロショットステレオビデオ生成のための新しいフレームワークであるStereoCrafter-Zeroを紹介する。主なイノベーションは、ステレオ認識の潜在表現を初期化するノイズリスタート戦略である。我々は,StereoCrafter-Zeroが高精細度と時間的滑らかさを向上した高品質なステレオビデオを生成することを示す。
参考スコア（独自算出の注目度）: 44.671043951223574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating high-quality stereo videos that mimic human binocular vision requires consistent depth perception and temporal coherence across frames. Despite advances in image and video synthesis using diffusion models, producing high-quality stereo videos remains a challenging task due to the difficulty of maintaining consistent temporal and spatial coherence between left and right views. We introduce StereoCrafter-Zero, a novel framework for zero-shot stereo video generation that leverages video diffusion priors without requiring paired training data. Our key innovations include a noisy restart strategy to initialize stereo-aware latent representations and an iterative refinement process that progressively harmonizes the latent space, addressing issues like temporal flickering and view inconsistencies. In addition, we propose the use of dissolved depth maps to streamline latent space operations by reducing high-frequency depth information. Our comprehensive evaluations, including quantitative metrics and user studies, demonstrate that StereoCrafter-Zero produces high-quality stereo videos with enhanced depth consistency and temporal smoothness, even when depth estimations are imperfect. Our framework is robust and adaptable across various diffusion models, setting a new benchmark for zero-shot stereo video generation and enabling more immersive visual experiences. Our code is in https://github.com/shijianjian/StereoCrafter-Zero.
Abstract（参考訳）: 人間の両眼視を模倣する高品質なステレオビデオを生成するには、フレーム間の一貫した深度知覚と時間的コヒーレンスが必要である。拡散モデルを用いた画像合成やビデオ合成の進歩にもかかわらず、高品質なステレオビデオの作成は、左右の視点間の時間的・空間的一貫性の維持が困難であるため、依然として難しい課題である。我々は,ゼロショットステレオビデオ生成のための新しいフレームワークであるStereoCrafter-Zeroを紹介した。私たちの重要なイノベーションには、ステレオ認識の潜伏表現を初期化するためのノイズの多い再起動戦略や、潜伏空間を段階的に調和させる反復的な改善プロセスが含まれます。さらに,高周波深度情報を削減することで,潜時空間操作の効率化を図るために,溶存深度マップを用いた手法を提案する。定量的な測定値やユーザスタディを含む包括的評価から,StereoCrafter-Zeroは,深さ推定が不完全である場合でも,深度一貫性と時間的滑らかさを向上した高品質なステレオビデオを生成することを示した。我々のフレームワークは様々な拡散モデルに対して堅牢で適応可能であり、ゼロショットステレオビデオ生成のための新しいベンチマークを設定し、より没入的な視覚体験を可能にする。私たちのコードはhttps://github.com/shijianjian/StereoCrafter-Zero.orgにある。

関連論文リスト

Restereo: Diffusion stereo video generation and restoration [43.208256051997616]
ステレオビデオを生成するだけでなく、左ビデオと右ビデオの両方を1つのモデルで一貫した拡張を行う新しいパイプラインを導入する。本手法は,比較的小さなステレオビデオデータセットを用いて微調整し,高品質な実世界のビデオに適用することができる。
論文参考訳（メタデータ） (2025-06-06T12:14:24Z)
SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers [25.36460340267922]
SkyReels-Audioは高忠実で時間的コヒーレントなポートレート映像を合成するための統一的なフレームワークである。我々のフレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様かつ制御可能な条件付けを可能にする。
論文参考訳（メタデータ） (2025-06-01T04:27:13Z)
Stereo Any Video: Temporally Consistent Stereo Matching [15.876953256378224]
本稿では,ビデオステレオマッチングのための強力なフレームワークであるStereo Any Videoを紹介する。カメラのポーズや光の流れといった補助的な情報に頼ることなく、空間的精度と時間的整合性を推定することができる。主要なアーキテクチャ革新は、スムーズでロバストなコストボリュームを構成する全対対相関と、時間的コヒーレンスを改善する時間的凸アップサンプリングである。
論文参考訳（メタデータ） (2025-03-07T16:20:36Z)
SpatialMe: Stereo Video Conversion Using Depth-Warping and Blend-Inpainting [20.98704347305053]
本研究では,深度ワープとブレンドインペインティングに基づく新しいステレオビデオ変換フレームワークであるSpatialMeを紹介する。データ不足を軽減するために、高品質な現実世界のステレオビデオデータセット -- StereoV1K を実行しています。
論文参考訳（メタデータ） (2024-12-16T07:42:49Z)
ImmersePro: End-to-End Stereo Video Synthesis Via Implicit Disparity Learning [43.105154507379076]
textitImmerseProは、シングルビュービデオをステレオビデオに変換するために特別に設計されたフレームワークである。 textitImmerseProは暗黙の相違ガイダンスを採用しており、明示的な相違マップを必要とせずにビデオシーケンスからステレオペアを生成することができる。本実験は,高画質ステレオビデオ作成におけるtextitImmersePro の有効性を実証し,既存の手法よりも大幅に改善した。
論文参考訳（メタデータ） (2024-09-30T22:19:32Z)
IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation [136.5813547244979]
高品質な人中心型ビデオ深度生成のためのIDOL(unIfied Dual-mOdal Latent diffusion)を提案する。我々のIDOLは2つの新しい設計で構成されている。第一に、デュアルモーダル生成を可能にし、ビデオと深度生成の間の情報交換を最大化する。次に,映像と深度特徴運動場との整合性を実現する動きの整合性損失を提案する。
論文参考訳（メタデータ） (2024-07-15T17:36:54Z)
Stereo Matching in Time: 100+ FPS Video Stereo Matching for Extended Reality [65.70936336240554]
リアルタイムステレオマッチング(Real-time Stereo Matching)は、屋内3D理解、ビデオパススルー、混合現実感ゲームなど、多くの拡張現実感(XR)アプリケーションのための基盤となるアルゴリズムである。最大の課題の1つは、ヘッドマウントのVR/ARメガネによってキャプチャされた高品質な屋内ビデオステレオトレーニングデータセットの欠如である。室内シーンのレンダリングと6-DoF移動VR/ARヘッドマウントディスプレイ(HMD)によるリアルなカメラモーションを含む,新しいステレオ合成データセットを提案する。これにより既存のアプローチの評価が促進され、屋内拡張現実シナリオのさらなる研究が促進される。
論文参考訳（メタデータ） (2023-09-08T07:53:58Z)
DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文参考訳（メタデータ） (2023-05-03T17:40:49Z)
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文参考訳（メタデータ） (2023-03-23T17:01:59Z)
Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文参考訳（メタデータ） (2022-12-14T18:54:13Z)
Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文参考訳（メタデータ） (2021-04-06T17:24:57Z)
Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2020-07-23T16:57:44Z)
Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文参考訳（メタデータ） (2020-07-20T16:35:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。