論文の概要: Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing
- arxiv url: http://arxiv.org/abs/2405.04496v1
- Date: Tue, 7 May 2024 17:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:11:46.891158
- Title: Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing
- Title(参考訳): 編集-Your-Motion:ビデオモーション編集のための時空間拡散デカップリング学習
- Authors: Yi Zuo, Lingling Li, Licheng Jiao, Fang Liu, Xu Liu, Wenping Ma, Shuyuan Yang, Yuwei Guo,
- Abstract要約: そこで本研究では,テキストとビデオのペアを1つだけ必要とするような編集-Your-Motionというワンショットビデオ編集手法を提案する。
具体的には、時空間拡散モデルにおける運動時間的特徴を分離するために、詳細なPromptGuided Learning Strategyを設計する。
Edit-Your-Motionを使えば、ユーザーはソースビデオの中のオブジェクトの動きを編集して、よりエキサイティングで多様なビデオを生成することができる。
- 参考スコア(独自算出の注目度): 46.56615725175025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing diffusion-based video editing methods have achieved impressive results in motion editing. Most of the existing methods focus on the motion alignment between the edited video and the reference video. However, these methods do not constrain the background and object content of the video to remain unchanged, which makes it possible for users to generate unexpected videos. In this paper, we propose a one-shot video motion editing method called Edit-Your-Motion that requires only a single text-video pair for training. Specifically, we design the Detailed Prompt-Guided Learning Strategy (DPL) to decouple spatio-temporal features in space-time diffusion models. DPL separates learning object content and motion into two training stages. In the first training stage, we focus on learning the spatial features (the features of object content) and breaking down the temporal relationships in the video frames by shuffling them. We further propose Recurrent-Causal Attention (RC-Attn) to learn the consistent content features of the object from unordered video frames. In the second training stage, we restore the temporal relationship in video frames to learn the temporal feature (the features of the background and object's motion). We also adopt the Noise Constraint Loss to smooth out inter-frame differences. Finally, in the inference stage, we inject the content features of the source object into the editing branch through a two-branch structure (editing branch and reconstruction branch). With Edit-Your-Motion, users can edit the motion of objects in the source video to generate more exciting and diverse videos. Comprehensive qualitative experiments, quantitative experiments and user preference studies demonstrate that Edit-Your-Motion performs better than other methods.
- Abstract(参考訳): 既存の拡散に基づく動画編集手法は、モーション編集において印象的な成果を上げている。
既存の手法のほとんどは、編集されたビデオと参照されたビデオの間の動きのアライメントに焦点を当てている。
しかし、これらの手法は、ビデオの背景やオブジェクトの内容が変化し続けることを制限しないため、ユーザが予期せぬビデオを生成することができる。
本稿では,1対のテキスト・ビデオ・ペアだけでトレーニングできる,Edit-Your-Motionというワンショット動画モーション編集手法を提案する。
具体的には、時空間拡散モデルにおける時空間的特徴を分離するために、DPL(Detailed Prompt-Guided Learning Strategy)を設計する。
DPLは学習対象の内容と動作を2つの訓練段階に分ける。
第1の訓練段階では,空間的特徴(対象内容の特徴)を学習し,それらをシャッフルすることで映像フレーム内の時間的関係を分解することに集中する。
さらに、未順序ビデオフレームからオブジェクトの一貫性のあるコンテンツ特徴を学習するために、Recurrent-Causal Attention (RC-Attn)を提案する。
第2の訓練段階では,映像フレームにおける時間的関係を復元し,時間的特徴(背景と物体の動きの特徴)を学習する。
フレーム間の違いを円滑にするために、ノイズ制約損失も採用しています。
最後に、推論段階では、2ブランチ構造(編集ブランチと再構成ブランチ)を介して、ソースオブジェクトのコンテンツ特徴を編集ブランチに注入する。
Edit-Your-Motionを使えば、ユーザーはソースビデオの中のオブジェクトの動きを編集して、よりエキサイティングで多様なビデオを生成することができる。
総合的な質的実験、定量的実験、ユーザー嗜好研究は、編集-Your-Motionが他の方法よりも優れていることを示す。
関連論文リスト
- MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - Separate Motion from Appearance: Customizing Motion via Customizing Text-to-Video Diffusion Models [18.41701130228042]
動きのカスタマイズは、拡散モデル(DM)に適応して、同じ動きの概念の一連のビデオクリップによって指定された動きを持つビデオを生成することを目的としている。
本稿では,TAP (temporal attention purification) とAH ( appearance highway) の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T05:40:20Z) - Edit as You See: Image-guided Video Editing via Masked Motion Modeling [18.89936405508778]
画像誘導映像編集拡散モデル(IVEDiff)を提案する。
IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。
本手法は,高画質な編集対象を忠実に処理しながら,時間的にスムーズな編集映像を生成することができる。
論文 参考訳(メタデータ) (2025-01-08T07:52:12Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。