Fugu-MT 論文翻訳(概要): MotionClone: Training-Free Motion Cloning for Controllable Video Generation

論文の概要: MotionClone: Training-Free Motion Cloning for Controllable Video Generation

arxiv url: http://arxiv.org/abs/2406.05338v3
Date: Fri, 28 Jun 2024 18:08:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 13:30:57.336449
Title: MotionClone: Training-Free Motion Cloning for Controllable Video Generation
Title（参考訳）: MotionClone: 制御可能なビデオ生成のためのトレーニング不要モーションクローン
Authors: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin,
Abstract要約: MotionCloneはトレーニング不要のフレームワークで、参照ビデオからのモーションクローンによってテキスト・ツー・ビデオ生成を制御することができる。実験により、MotionCloneは、グローバルカメラモーションとローカルオブジェクトモーションの両方に熟練度を示すことが示された。
参考スコア（独自算出の注目度）: 41.621147782128396
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Motion-based controllable text-to-video generation involves motions to control the video generation. Previous methods typically require the training of models to encode motion cues or the fine-tuning of video diffusion models. However, these approaches often result in suboptimal motion generation when applied outside the trained domain. In this work, we propose MotionClone, a training-free framework that enables motion cloning from a reference video to control text-to-video generation. We employ temporal attention in video inversion to represent the motions in the reference video and introduce primary temporal-attention guidance to mitigate the influence of noisy or very subtle motions within the attention weights. Furthermore, to assist the generation model in synthesizing reasonable spatial relationships and enhance its prompt-following capability, we propose a location-aware semantic guidance mechanism that leverages the coarse location of the foreground from the reference video and original classifier-free guidance features to guide the video generation. Extensive experiments demonstrate that MotionClone exhibits proficiency in both global camera motion and local object motion, with notable superiority in terms of motion fidelity, textual alignment, and temporal consistency.
Abstract（参考訳）: モーションベースの制御可能なテキスト・ビデオ生成には、動画生成を制御するモーションが含まれる。従来手法では、モーションキューを符号化するためのモデルのトレーニングや、ビデオ拡散モデルの微調整が求められていた。しかし、これらのアプローチは訓練された領域の外で適用された場合、しばしば準最適運動の発生をもたらす。本研究では,テキスト・ビデオ生成を制御するための参照ビデオからのモーション・クローンを可能にする,トレーニング不要なフレームワークであるMotionCloneを提案する。基準映像における動きを表現するために時間的注意をビデオインバージョンに用い,注意重み内の雑音や非常に微妙な動きの影響を軽減するために時間的注意指導を導入した。さらに、合理的な空間関係を合成し、その素早い追跡能力を高めるために、基準映像から前景の粗い位置を活用できる位置認識型意味指導機構と、オリジナル分類器なし指導機能を用いて、映像生成を誘導する。大規模な実験により、MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方に熟練度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れていることが示されている。

関連論文リスト

Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning [50.4776422843776]
Follow-Your-Motionは、複雑な動きを合成するために強力なビデオ拡散トランスフォーマーを微調整する、効率的な2段階ビデオモーション転送フレームワークである。我々は,Follow-Your-Motionの優位性を検証するため,MotionBenchについて広範囲に評価を行った。
論文参考訳（メタデータ） (2025-06-05T16:18:32Z)
ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文参考訳（メタデータ） (2025-05-28T23:49:18Z)
MotionPro: A Precise Motion Controller for Image-to-Video Generation [108.63100943070592]
我々は、画像間(I2V)生成のための正確なモーションコントローラであるMotionProを提案する。局所軌道と運動マスクは、微細な運動合成を制御するために用いられる。 WebVid-10MとMC-Benchで行った実験は、MotionProの有効性を実証している。
論文参考訳（メタデータ） (2025-05-26T17:59:03Z)
Towards Synthesized and Editable Motion In-Betweening Through Part-Wise Phase Representation [20.697417033585577]
スタイル付きモーションはコンピュータのアニメーションやゲームには不可欠だ。身体部分レベルでの動作スタイルをモデル化する新しいフレームワークを提案する。我々のアプローチはよりニュアンスで表現力のあるアニメーションを可能にする。
論文参考訳（メタデータ） (2025-03-11T08:44:27Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文参考訳（メタデータ） (2024-04-24T10:28:54Z)
Motion Inversion for Video Customization [31.607669029754874]
本稿では,映像モデルにおける動き表現の探索における広範なギャップに対処する,動き生成のための新しいアプローチを提案する。本研究では,ビデオから抽出した時間的コヒーレントな埋め込みの集合であるMotion Embeddingsを紹介する。我々の貢献には、カスタマイズタスクのための調整されたモーション埋め込みと、本手法の実用的メリットと有効性を示すことが含まれる。
論文参考訳（メタデータ） (2024-03-29T14:14:22Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。 MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文参考訳（メタデータ） (2023-12-08T16:31:04Z)
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文参考訳（メタデータ） (2023-12-06T17:49:57Z)
MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video Generation [131.1446077627191]
ゼロショットのテキスト・トゥ・ビデオ合成は、ビデオなしでプロンプトに基づいてビデオを生成する。本研究では,MotionZeroと命名されたプロンプト適応型・アンタングル型モーションコントロール戦略を提案する。我々の戦略は、異なるオブジェクトの動きを正しく制御し、ゼロショットビデオ編集を含む多目的アプリケーションをサポートする。
論文参考訳（メタデータ） (2023-11-28T09:38:45Z)
Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文参考訳（メタデータ） (2022-10-27T02:45:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。