論文の概要: MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance
- arxiv url: http://arxiv.org/abs/2412.05355v1
- Date: Fri, 06 Dec 2024 18:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:41.791285
- Title: MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance
- Title(参考訳): MotionShop:スコア誘導を混合したビデオ拡散モデルにおけるゼロショット運動伝達
- Authors: Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag,
- Abstract要約: 拡散変圧器におけるScore Guidance(MSG)の混合による第1動作伝達手法を提案する。
MSGは拡散モデルにおける運動伝達の理論的基盤となるフレームワークである。
我々は、200のソースビデオと1000の転送モーションからなる最初のモーショントランスファーデータセットであるMotionBenchを紹介する。
- 参考スコア(独自算出の注目度): 3.2311303453753033
- License:
- Abstract: In this work, we propose the first motion transfer approach in diffusion transformer through Mixture of Score Guidance (MSG), a theoretically-grounded framework for motion transfer in diffusion models. Our key theoretical contribution lies in reformulating conditional score to decompose motion score and content score in diffusion models. By formulating motion transfer as a mixture of potential energies, MSG naturally preserves scene composition and enables creative scene transformations while maintaining the integrity of transferred motion patterns. This novel sampling operates directly on pre-trained video diffusion models without additional training or fine-tuning. Through extensive experiments, MSG demonstrates successful handling of diverse scenarios including single object, multiple objects, and cross-object motion transfer as well as complex camera motion transfer. Additionally, we introduce MotionBench, the first motion transfer dataset consisting of 200 source videos and 1000 transferred motions, covering single/multi-object transfers, and complex camera motions.
- Abstract(参考訳): 本研究では,拡散モデルにおける運動伝達の理論的枠組みであるMixture of Score Guidance (MSG)による拡散トランスフォーマの最初の動き伝達手法を提案する。
我々の理論的な重要な貢献は、拡散モデルにおける運動スコアとコンテンツスコアを分解するために条件スコアを変更することである。
運動伝達をポテンシャルエネルギーの混合として定式化することにより、MSGは自然にシーン組成を保存し、移動した動きパターンの整合性を維持しながら創造的なシーン変換を可能にする。
この新しいサンプリングは、追加のトレーニングや微調整なしに、事前訓練されたビデオ拡散モデルで直接動作する。
広範な実験を通じて、MSGは単一のオブジェクト、複数のオブジェクト、オブジェクト間のモーショントランスファー、複雑なカメラモーショントランスファーを含む様々なシナリオのハンドリングに成功した。
さらに,200のソースビデオと1000の転送モーションからなる最初のモーショントランスファーデータセットであるMotionBenchを導入し,シングル/マルチオブジェクトトランスファーと複雑なカメラモーションをカバーした。
関連論文リスト
- A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。
また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。
本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文 参考訳(メタデータ) (2024-12-23T08:26:00Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z) - Differential Motion Evolution for Fine-Grained Motion Deformation in
Unsupervised Image Animation [41.85199775016731]
エンドツーエンドの非教師ありモーショントランスファーフレームワークであるDiMEを紹介する。
通常の微分方程式(ODE)で運動伝達を捉えることで、運動場を規則化するのに役立つ。
また、DMEはソースオブジェクトの複数の異なるビューを簡単に利用することができるというODEの考え方を自然に拡張する。
論文 参考訳(メタデータ) (2021-10-09T22:44:30Z) - Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis [38.41763708731513]
本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-02-26T06:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。