Fugu-MT 論文翻訳(概要): MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models

論文の概要: MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models

arxiv url: http://arxiv.org/abs/2412.01343v1
Date: Mon, 02 Dec 2024 10:07:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.500046
Title: MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models
Title（参考訳）: MoTrans:テキスト駆動型ビデオ拡散モデルによるカスタムモーショントランスファー
Authors: Xiaomin Li, Xu Jia, Qinghe Wang, Haiwen Diao, Mengmeng Ge, Pengxiang Li, You He, Huchuan Lu,
Abstract要約: MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
参考スコア（独自算出の注目度）: 59.10171699717122
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing pretrained text-to-video (T2V) models have demonstrated impressive abilities in generating realistic videos with basic motion or camera movement. However, these models exhibit significant limitations when generating intricate, human-centric motions. Current efforts primarily focus on fine-tuning models on a small set of videos containing a specific motion. They often fail to effectively decouple motion and the appearance in the limited reference videos, thereby weakening the modeling capability of motion patterns. To this end, we propose MoTrans, a customized motion transfer method enabling video generation of similar motion in new context. Specifically, we introduce a multimodal large language model (MLLM)-based recaptioner to expand the initial prompt to focus more on appearance and an appearance injection module to adapt appearance prior from video frames to the motion modeling process. These complementary multimodal representations from recaptioned prompt and video frames promote the modeling of appearance and facilitate the decoupling of appearance and motion. In addition, we devise a motion-specific embedding for further enhancing the modeling of the specific motion. Experimental results demonstrate that our method effectively learns specific motion pattern from singular or multiple reference videos, performing favorably against existing methods in customized video generation.
Abstract（参考訳）: 既存の訓練済みのテキスト・ツー・ビデオ(T2V)モデルは、基本的な動きやカメラの動きでリアルなビデオを生成する素晴らしい能力を示している。しかし、これらのモデルでは複雑な人間中心の動きを発生させる際に大きな制限が生じる。現在の取り組みは主に、特定の動きを含むビデオの小さなセットに関する微調整モデルに焦点を当てている。彼らはしばしば、動きと限られた参照ビデオの外観を効果的に切り離すことに失敗し、それによって動きパターンのモデリング能力を低下させる。そこで本研究では,新しい状況下での映像生成が可能なモーション転送方式であるMoTransを提案する。具体的には,マルチモーダル大言語モデル(MLLM)に基づく再カプセル化システムを導入し,初期プロンプトを拡張して外観にもっと焦点をあてるとともに,映像フレームからモーションモデリングプロセスへの外観適応のための外観注入モジュールを提案する。これらの補完的なプロンプトとビデオフレームからの多重モーダル表現は、外観のモデリングを促進し、外観と動きの分離を促進する。さらに,特定の動きのモデリングをさらに強化するための,動き特異的な埋め込みを考案した。実験結果から,本手法は単一あるいは複数参照ビデオから特定の動きパターンを効果的に学習し,既存の動画生成手法に対して良好に動作できることが示唆された。

関連論文リスト

VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
Separate Motion from Appearance: Customizing Motion via Customizing Text-to-Video Diffusion Models [18.41701130228042]
動きのカスタマイズは、拡散モデル(DM)に適応して、同じ動きの概念の一連のビデオクリップによって指定された動きを持つビデオを生成することを目的としている。本稿では,TAP (temporal attention purification) とAH ( appearance highway) の2つの新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-28T05:40:20Z)
MotionFlow: Attention-Driven Motion Transfer in Video Diffusion Models [3.2311303453753033]
動画拡散モデルにおける動き伝達のための新しいフレームワークであるMotionFlowを紹介する。本手法は,空間的・時間的ダイナミクスを正確に把握し,操作するために,クロスアテンションマップを利用する。実験の結果,MotionFlowは劇的なシーン変化であっても,忠実度と汎用性の両方で既存モデルよりも優れていた。
論文参考訳（メタデータ） (2024-12-06T18:59:12Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。 MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文参考訳（メタデータ） (2023-12-08T16:31:04Z)
Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文参考訳（メタデータ） (2023-12-07T18:59:03Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文参考訳（メタデータ） (2023-10-12T16:26:18Z)
LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。 LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文参考訳（メタデータ） (2023-04-23T10:32:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。