論文の概要: DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and
View-Change Human-Centric Video Editing
- arxiv url: http://arxiv.org/abs/2310.10624v1
- Date: Mon, 16 Oct 2023 17:48:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 12:28:03.265809
- Title: DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and
View-Change Human-Centric Video Editing
- Title(参考訳): DynVideo-E: 大規模モーションとビューチェンジ人間中心映像編集のための高調波動的NeRF
- Authors: Jia-Wei Liu, Yan-Pei Cao, Jay Zhangjie Wu, Weijia Mao, Yuchao Gu, Rui
Zhao, Jussi Keppo, Ying Shan, Mike Zheng Shou
- Abstract要約: 我々は,映像編集問題を3次元空間編集作業に容易に適用するために,ダイナミックニューラルネットワーク場(NeRF)を人間中心のビデオ表現として導入する。
我々の手法はDynVideo-Eと呼ばれ、2つの挑戦的データセットに対するSOTAのアプローチを人間の好みで50%の差で大幅に上回っている。
- 参考スコア(独自算出の注目度): 48.086102360155856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable research advances in diffusion-based video editing,
existing methods are limited to short-length videos due to the contradiction
between long-range consistency and frame-wise editing. Recent approaches
attempt to tackle this challenge by introducing video-2D representations to
degrade video editing to image editing. However, they encounter significant
difficulties in handling large-scale motion- and view-change videos especially
for human-centric videos. This motivates us to introduce the dynamic Neural
Radiance Fields (NeRF) as the human-centric video representation to ease the
video editing problem to a 3D space editing task. As such, editing can be
performed in the 3D spaces and propagated to the entire video via the
deformation field. To provide finer and direct controllable editing, we propose
the image-based 3D space editing pipeline with a set of effective designs.
These include multi-view multi-pose Score Distillation Sampling (SDS) from both
2D personalized diffusion priors and 3D diffusion priors, reconstruction losses
on the reference image, text-guided local parts super-resolution, and style
transfer for 3D background space. Extensive experiments demonstrate that our
method, dubbed as DynVideo-E, significantly outperforms SOTA approaches on two
challenging datasets by a large margin of 50% ~ 95% in terms of human
preference. Compelling video comparisons are provided in the project page
https://showlab.github.io/DynVideo-E/. Our code and data will be released to
the community.
- Abstract(参考訳): 拡散に基づくビデオ編集の顕著な進歩にもかかわらず、既存の手法は長距離一貫性とフレームワイズ編集の矛盾のため、短いビデオに限られている。
近年,映像編集にビデオ2D表現を導入する手法が提案されている。
しかし、特に人間中心のビデオでは、大規模なモーションビデオやビューチェンジビデオの処理が著しく困難である。
これにより,映像編集問題を3次元空間編集作業に容易化するため,人間中心の映像表現として動的ニューラルラジアンス場(NeRF)を導入することができる。
これにより、3D空間で編集を行い、変形場を介して全映像に伝搬することができる。
より微細で直接制御可能な編集を実現するために,画像に基づく3次元空間編集パイプラインを提案する。
マルチビュー多目的スコア蒸留サンプリング(SDS)は2次元個別拡散先行と3次元拡散先行の両方からのものであり、参照画像の再構成損失、テキスト誘導ローカル部分の超解像度化、および3次元背景空間のスタイル転送である。
大規模な実験により,我々の手法はDynVideo-Eと呼ばれ,人間の嗜好において50%~95%の差でSOTAアプローチを2つの挑戦的データセットで大幅に上回っていることがわかった。
コンパイルされたビデオの比較はプロジェクトページ https://showlab.github.io/DynVideo-E/ で提供されている。
私たちのコードとデータはコミュニティにリリースされます。
関連論文リスト
- CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework [33.46782517803435]
Make-Your-Anchorは、トレーニングのために個人の1分間のビデオクリップだけを必要とするシステムである。
入力ビデオ上に構造誘導拡散モデルを用いて3次元メッシュ条件を人間の外見に表現する。
出力ビデオにおける顔領域の視覚的品質を改善するために、新しい識別特異的顔強調モジュールが導入された。
論文 参考訳(メタデータ) (2024-03-25T07:54:18Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。