論文の概要: DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and
View-Change Human-Centric Video Editing
- arxiv url: http://arxiv.org/abs/2310.10624v1
- Date: Mon, 16 Oct 2023 17:48:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 12:28:03.265809
- Title: DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and
View-Change Human-Centric Video Editing
- Title(参考訳): DynVideo-E: 大規模モーションとビューチェンジ人間中心映像編集のための高調波動的NeRF
- Authors: Jia-Wei Liu, Yan-Pei Cao, Jay Zhangjie Wu, Weijia Mao, Yuchao Gu, Rui
Zhao, Jussi Keppo, Ying Shan, Mike Zheng Shou
- Abstract要約: 我々は,映像編集問題を3次元空間編集作業に容易に適用するために,ダイナミックニューラルネットワーク場(NeRF)を人間中心のビデオ表現として導入する。
我々の手法はDynVideo-Eと呼ばれ、2つの挑戦的データセットに対するSOTAのアプローチを人間の好みで50%の差で大幅に上回っている。
- 参考スコア(独自算出の注目度): 48.086102360155856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable research advances in diffusion-based video editing,
existing methods are limited to short-length videos due to the contradiction
between long-range consistency and frame-wise editing. Recent approaches
attempt to tackle this challenge by introducing video-2D representations to
degrade video editing to image editing. However, they encounter significant
difficulties in handling large-scale motion- and view-change videos especially
for human-centric videos. This motivates us to introduce the dynamic Neural
Radiance Fields (NeRF) as the human-centric video representation to ease the
video editing problem to a 3D space editing task. As such, editing can be
performed in the 3D spaces and propagated to the entire video via the
deformation field. To provide finer and direct controllable editing, we propose
the image-based 3D space editing pipeline with a set of effective designs.
These include multi-view multi-pose Score Distillation Sampling (SDS) from both
2D personalized diffusion priors and 3D diffusion priors, reconstruction losses
on the reference image, text-guided local parts super-resolution, and style
transfer for 3D background space. Extensive experiments demonstrate that our
method, dubbed as DynVideo-E, significantly outperforms SOTA approaches on two
challenging datasets by a large margin of 50% ~ 95% in terms of human
preference. Compelling video comparisons are provided in the project page
https://showlab.github.io/DynVideo-E/. Our code and data will be released to
the community.
- Abstract(参考訳): 拡散に基づくビデオ編集の顕著な進歩にもかかわらず、既存の手法は長距離一貫性とフレームワイズ編集の矛盾のため、短いビデオに限られている。
近年,映像編集にビデオ2D表現を導入する手法が提案されている。
しかし、特に人間中心のビデオでは、大規模なモーションビデオやビューチェンジビデオの処理が著しく困難である。
これにより,映像編集問題を3次元空間編集作業に容易化するため,人間中心の映像表現として動的ニューラルラジアンス場(NeRF)を導入することができる。
これにより、3D空間で編集を行い、変形場を介して全映像に伝搬することができる。
より微細で直接制御可能な編集を実現するために,画像に基づく3次元空間編集パイプラインを提案する。
マルチビュー多目的スコア蒸留サンプリング(SDS)は2次元個別拡散先行と3次元拡散先行の両方からのものであり、参照画像の再構成損失、テキスト誘導ローカル部分の超解像度化、および3次元背景空間のスタイル転送である。
大規模な実験により,我々の手法はDynVideo-Eと呼ばれ,人間の嗜好において50%~95%の差でSOTAアプローチを2つの挑戦的データセットで大幅に上回っていることがわかった。
コンパイルされたビデオの比較はプロジェクトページ https://showlab.github.io/DynVideo-E/ で提供されている。
私たちのコードとデータはコミュニティにリリースされます。
関連論文リスト
- Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework [33.46782517803435]
Make-Your-Anchorは、トレーニングのために個人の1分間のビデオクリップだけを必要とするシステムである。
入力ビデオ上に構造誘導拡散モデルを用いて3次元メッシュ条件を人間の外見に表現する。
出力ビデオにおける顔領域の視覚的品質を改善するために、新しい識別特異的顔強調モジュールが導入された。
論文 参考訳(メタデータ) (2024-03-25T07:54:18Z) - Customize-A-Video: One-Shot Motion Customization of Text-to-Video
Diffusion Models [50.65904921917907]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案手法は、カスタムビデオ生成や編集、映像の外観のカスタマイズ、複数動作の組み合わせなど、様々な下流タスクに容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet Representation [35.52770785430601]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - ViCA-NeRF: View-Consistency-Aware 3D Editing of Neural Radiance Fields [45.020585071312475]
ViCA-NeRFはテキストによる3D編集のための最初のビュー一貫性対応方式である。
我々は、異なるビューにまたがって編集情報を明示的に伝達する正規化の2つの源を利用する。
論文 参考訳(メタデータ) (2024-02-01T18:59:09Z) - Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview
Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。
共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。
多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文 参考訳(メタデータ) (2023-12-13T23:27:17Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。