論文の概要: Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing
- arxiv url: http://arxiv.org/abs/2405.04496v3
- Date: Tue, 15 Oct 2024 03:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 10:09:20.340828
- Title: Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing
- Title(参考訳): 編集-Your-Motion:ビデオモーション編集のための時空間拡散デカップリング学習
- Authors: Yi Zuo, Lingling Li, Licheng Jiao, Fang Liu, Xu Liu, Wenping Ma, Shuyuan Yang, Yuwei Guo,
- Abstract要約: 本稿では,ワンショット微調整による未確認課題に対処するビデオモーション編集手法であるEdit-Your-Motionを紹介する。
映像の動作と外観を効果的に分離するために,時間的二段階学習戦略を設計する。
Edit-Your-Motionを使えば、ユーザーはソースビデオの中の人間の動きを編集でき、より魅力的で多様なコンテンツを作ることができる。
- 参考スコア(独自算出の注目度): 46.56615725175025
- License:
- Abstract: Existing diffusion-based methods have achieved impressive results in human motion editing. However, these methods often exhibit significant ghosting and body distortion in unseen in-the-wild cases. In this paper, we introduce Edit-Your-Motion, a video motion editing method that tackles these challenges through one-shot fine-tuning on unseen cases. Specifically, firstly, we utilized DDIM inversion to initialize the noise, preserving the appearance of the source video and designed a lightweight motion attention adapter module to enhance motion fidelity. DDIM inversion aims to obtain the implicit representations by estimating the prediction noise from the source video, which serves as a starting point for the sampling process, ensuring the appearance consistency between the source and edited videos. The Motion Attention Module (MA) enhances the model's motion editing ability by resolving the conflict between the skeleton features and the appearance features. Secondly, to effectively decouple motion and appearance of source video, we design a spatio-temporal two-stage learning strategy (STL). In the first stage, we focus on learning temporal features of human motion and propose recurrent causal attention (RCA) to ensure consistency between video frames. In the second stage, we shift focus on learning the appearance features of the source video. With Edit-Your-Motion, users can edit the motion of humans in the source video, creating more engaging and diverse content. Extensive qualitative and quantitative experiments, along with user preference studies, show that Edit-Your-Motion outperforms other methods.
- Abstract(参考訳): 既存の拡散法は人間の運動編集において顕著な成果を上げている。
しかし,これらの手法は,未確認の眼内症例では大きなゴーストや身体の歪みを呈することが多い。
本稿では,この課題に対処するビデオモーション編集手法であるEdit-Your-Motionを紹介する。
具体的には、DDIMインバージョンを用いてノイズを初期化し、映像の外観を保存し、動きの忠実度を高めるための軽量なモーションアテンションアダプタモジュールを設計した。
DDIMのインバージョンは、サンプリングプロセスの出発点となるソースビデオからの予測ノイズを推定し、ソースと編集されたビデオ間の外観整合性を確保することで、暗黙の表現を得ることを目的としている。
モーション・アテンション・モジュール(MA)は、骨格の特徴と外観の特徴との間の対立を解消することで、モデルのモーション編集能力を向上する。
第2に、映像の動作と外観を効果的に分離するために、時空間2段階学習戦略(STL)を設計する。
第1段階では、人間の動作の時間的特徴を学習することに集中し、ビデオフレーム間の一貫性を確保するために、繰り返し因果注意(RCA)を提案する。
第2段階では、ソースビデオの外観特徴の学習に重点を移す。
Edit-Your-Motionを使えば、ユーザーはソースビデオの中の人間の動きを編集でき、より魅力的で多様なコンテンツを作ることができる。
定性的かつ定量的な実験は、ユーザー好みの研究とともに、Edit-Your-Motionが他の方法よりも優れていることを示す。
関連論文リスト
- MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - Separate Motion from Appearance: Customizing Motion via Customizing Text-to-Video Diffusion Models [18.41701130228042]
動きのカスタマイズは、拡散モデル(DM)に適応して、同じ動きの概念の一連のビデオクリップによって指定された動きを持つビデオを生成することを目的としている。
本稿では,TAP (temporal attention purification) とAH ( appearance highway) の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T05:40:20Z) - Edit as You See: Image-guided Video Editing via Masked Motion Modeling [18.89936405508778]
画像誘導映像編集拡散モデル(IVEDiff)を提案する。
IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。
本手法は,高画質な編集対象を忠実に処理しながら,時間的にスムーズな編集映像を生成することができる。
論文 参考訳(メタデータ) (2025-01-08T07:52:12Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。