論文の概要: MotionClone: Training-Free Motion Cloning for Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2406.05338v3
- Date: Fri, 28 Jun 2024 18:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 13:30:57.336449
- Title: MotionClone: Training-Free Motion Cloning for Controllable Video Generation
- Title(参考訳): MotionClone: 制御可能なビデオ生成のためのトレーニング不要モーションクローン
- Authors: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin,
- Abstract要約: MotionCloneはトレーニング不要のフレームワークで、参照ビデオからのモーションクローンによってテキスト・ツー・ビデオ生成を制御することができる。
実験により、MotionCloneは、グローバルカメラモーションとローカルオブジェクトモーションの両方に熟練度を示すことが示された。
- 参考スコア(独自算出の注目度): 41.621147782128396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion-based controllable text-to-video generation involves motions to control the video generation. Previous methods typically require the training of models to encode motion cues or the fine-tuning of video diffusion models. However, these approaches often result in suboptimal motion generation when applied outside the trained domain. In this work, we propose MotionClone, a training-free framework that enables motion cloning from a reference video to control text-to-video generation. We employ temporal attention in video inversion to represent the motions in the reference video and introduce primary temporal-attention guidance to mitigate the influence of noisy or very subtle motions within the attention weights. Furthermore, to assist the generation model in synthesizing reasonable spatial relationships and enhance its prompt-following capability, we propose a location-aware semantic guidance mechanism that leverages the coarse location of the foreground from the reference video and original classifier-free guidance features to guide the video generation. Extensive experiments demonstrate that MotionClone exhibits proficiency in both global camera motion and local object motion, with notable superiority in terms of motion fidelity, textual alignment, and temporal consistency.
- Abstract(参考訳): モーションベースの制御可能なテキスト・ビデオ生成には、動画生成を制御するモーションが含まれる。
従来手法では、モーションキューを符号化するためのモデルのトレーニングや、ビデオ拡散モデルの微調整が求められていた。
しかし、これらのアプローチは訓練された領域の外で適用された場合、しばしば準最適運動の発生をもたらす。
本研究では,テキスト・ビデオ生成を制御するための参照ビデオからのモーション・クローンを可能にする,トレーニング不要なフレームワークであるMotionCloneを提案する。
基準映像における動きを表現するために時間的注意をビデオインバージョンに用い,注意重み内の雑音や非常に微妙な動きの影響を軽減するために時間的注意指導を導入した。
さらに、合理的な空間関係を合成し、その素早い追跡能力を高めるために、基準映像から前景の粗い位置を活用できる位置認識型意味指導機構と、オリジナル分類器なし指導機能を用いて、映像生成を誘導する。
大規模な実験により、MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方に熟練度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れていることが示されている。
関連論文リスト
- Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Motion-Zero: Zero-Shot Moving Object Control Framework for
Diffusion-Based Video Generation [10.951376101606357]
本研究では,ゼロショット移動物体軌道制御フレームワークであるMotion-Zeroを提案する。
本手法は、トレーニングプロセスなしで、様々な最先端ビデオ拡散モデルに柔軟に適用できる。
論文 参考訳(メタデータ) (2024-01-18T17:22:37Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video
Representation Learning [16.094271750354835]
モーション情報は、堅牢で一般化されたビデオ表現に不可欠である。
近年の研究では、ビデオコントラスト学習における動き情報の源として、フレーム差が採用されている。
本稿では,適切な動き情報を導入可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-01T07:03:27Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。