論文の概要: MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation
- arxiv url: http://arxiv.org/abs/2309.00908v1
- Date: Sat, 2 Sep 2023 11:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 00:27:03.794438
- Title: MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation
- Title(参考訳): magicprop:モーションアウェアの外観伝播を利用した拡散型ビデオ編集
- Authors: Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng
- Abstract要約: MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
- 参考スコア(独自算出の注目度): 74.32046206403177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the issue of modifying the visual appearance of videos
while preserving their motion. A novel framework, named MagicProp, is proposed,
which disentangles the video editing process into two stages: appearance
editing and motion-aware appearance propagation. In the first stage, MagicProp
selects a single frame from the input video and applies image-editing
techniques to modify the content and/or style of the frame. The flexibility of
these techniques enables the editing of arbitrary regions within the frame. In
the second stage, MagicProp employs the edited frame as an appearance reference
and generates the remaining frames using an autoregressive rendering approach.
To achieve this, a diffusion-based conditional generation model, called
PropDPM, is developed, which synthesizes the target frame by conditioning on
the reference appearance, the target motion, and its previous appearance. The
autoregressive editing approach ensures temporal consistency in the resulting
videos. Overall, MagicProp combines the flexibility of image-editing techniques
with the superior temporal consistency of autoregressive modeling, enabling
flexible editing of object types and aesthetic styles in arbitrary regions of
input videos while maintaining good temporal consistency across frames.
Extensive experiments in various video editing scenarios demonstrate the
effectiveness of MagicProp.
- Abstract(参考訳): 本論文は,映像の視覚的外観を,動作を保ちながら修正するという課題に対処する。
映像編集プロセスを,映像編集と映像認識の2段階に分けた,magicpropという新たな枠組みが提案されている。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
これらの技法の柔軟性はフレーム内の任意の領域の編集を可能にする。
第2段階では、magicpropは編集されたフレームを外観参照として使用し、残りのフレームを自己回帰レンダリングアプローチで生成する。
これを実現するために, 目標フレームの基準外観, 目標運動, およびそれ以前の外観をコンディショニングすることにより, 目標フレームを合成する拡散型条件生成モデルpropdpmを開発した。
自動回帰編集アプローチは、結果のビデオの時間的一貫性を保証する。
全体的にmagicpropは、画像編集技術の柔軟性と、自己回帰モデリングの時間的一貫性を両立させ、入力ビデオの任意の領域におけるオブジェクトタイプや美的スタイルを柔軟に編集し、フレーム間の時間的一貫性を維持している。
様々なビデオ編集シナリオにおける広範囲な実験がmagicpropの有効性を示している。
関連論文リスト
- I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - MagicStick: Controllable Video Editing via Control Handle
Transformations [109.26314726025097]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video
editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。
提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。
既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-09T17:59:53Z) - MagicEdit: High-Fidelity and Temporally Coherent Video Editing [70.55750617502696]
MagicEditは、テキスト誘導ビデオ編集タスクの驚くほどシンプルで効果的なソリューションです。
トレーニング中,コンテンツ,構造,動作信号の学習を明示的に切り離すことで,高忠実で時間的に一貫した映像翻訳を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-28T17:56:22Z) - StableVideo: Text-driven Consistency-aware Diffusion Video Editing [24.50933856309234]
拡散に基づく手法は、リアルな画像やビデオを生成することができるが、ビデオ内の既存のオブジェクトを編集するのに苦労し、その外観は時間の経過とともに保たれる。
本稿では、既存のテキスト駆動拡散モデルへの時間的依存を導入し、編集対象に対して一貫した外観を生成する。
我々は,この機構,すなわちStableVideoに基づくテキスト駆動のビデオ編集フレームワークを構築し,一貫性を意識したビデオ編集を実現する。
論文 参考訳(メタデータ) (2023-08-18T14:39:16Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Shape-aware Text-driven Layered Video Editing [39.56765973770167]
形状変化に対処する形状認識型テキスト駆動ビデオ編集手法を提案する。
まず、入力と編集されたすべてのフレーム間の変形場を伝搬する。
次に、事前学習したテキスト条件拡散モデルを用いて、形状歪みを補正し、目に見えない領域を完成させる。
論文 参考訳(メタデータ) (2023-01-30T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。