論文の概要: World-Consistent Video-to-Video Synthesis
- arxiv url: http://arxiv.org/abs/2007.08509v1
- Date: Thu, 16 Jul 2020 17:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 23:32:35.225180
- Title: World-Consistent Video-to-Video Synthesis
- Title(参考訳): 世界一貫性のあるビデオからビデオへの合成
- Authors: Arun Mallya, Ting-Chun Wang, Karan Sapra, Ming-Yu Liu
- Abstract要約: レンダリング中に過去のすべてのフレームを効率的に活用する新しいvid2vidフレームワークを提案する。
これは、これまでレンダリングされた3D世界を、現在のフレームの物理的に基底化された推定に凝縮することで達成される。
誘導画像に格納された情報を活用する新しいニューラルネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 35.617437747886484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-to-video synthesis (vid2vid) aims for converting high-level semantic
inputs to photorealistic videos. While existing vid2vid methods can achieve
short-term temporal consistency, they fail to ensure the long-term one. This is
because they lack knowledge of the 3D world being rendered and generate each
frame only based on the past few frames. To address the limitation, we
introduce a novel vid2vid framework that efficiently and effectively utilizes
all past generated frames during rendering. This is achieved by condensing the
3D world rendered so far into a physically-grounded estimate of the current
frame, which we call the guidance image. We further propose a novel neural
network architecture to take advantage of the information stored in the
guidance images. Extensive experimental results on several challenging datasets
verify the effectiveness of our approach in achieving world consistency - the
output video is consistent within the entire rendered 3D world.
https://nvlabs.github.io/wc-vid2vid/
- Abstract(参考訳): ビデオ間合成(vid2vid)は、高レベルなセマンティックインプットをフォトリアリスティックなビデオに変換することを目的としている。
既存のvid2vidメソッドは短期的一貫性を実現することができるが、長期的な一貫性を保証することはできない。
これは3dワールドがレンダリングされ、過去数フレームのみに基づいて各フレームを生成するという知識が欠けているためである。
そこで本研究では,過去生成したフレームを効率的に効果的に活用する新しいvid2vidフレームワークを提案する。
これは、これまでにレンダリングされた3d世界を現在のフレームの物理的接地推定に凝縮することで実現されます。
さらに、ガイダンス画像に格納された情報を活用する新しいニューラルネットワークアーキテクチャを提案する。
いくつかの挑戦的なデータセットに関する広範囲な実験結果は、世界一貫性を達成するためのアプローチの有効性を検証するものです。
https://nvlabs.github.io/wc-vid2vid/
関連論文リスト
- SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - Flexible Techniques for Differentiable Rendering with 3D Gaussians [29.602516169951556]
ニューラル・ラディアンス・フィールズ(Neural Radiance Fields)は、フォトリアリスティック・ノベルビューが到達範囲内にあることを示した。
特に3次元水密メッシュと1線当たりのレンダリングによる代替形状表現の拡張を開発した。
これらの再構築は高速で堅牢で、GPUやCPU上で容易に実行できる。
論文 参考訳(メタデータ) (2023-08-28T17:38:31Z) - DiffSynth: Latent In-Iteration Deflickering for Realistic Video
Synthesis [15.857449277106827]
DiffSynthは、画像合成パイプラインをビデオ合成パイプラインに変換する新しいアプローチである。
潜伏中のデクリッカリングフレームワークとビデオデクリッカリングアルゴリズムで構成されている。
Diff Synthの顕著な利点の1つは、様々なビデオ合成タスクに適用可能であることである。
論文 参考訳(メタデータ) (2023-08-07T10:41:52Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - 3D Video Loops from Asynchronous Input [22.52716577813998]
ループ動画は短いビデオクリップで、目に見えるシームやアーティファクトを使わずに無限にループできる。
本稿では,動的3次元ループシーンにおける没入型体験を実現するための実用的なソリューションを提案する。
このフレームワークの実験では,モバイルデバイス上でもリアルタイムに3Dループビデオの生成とレンダリングを成功させる可能性が示された。
論文 参考訳(メタデータ) (2023-03-09T15:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。