論文の概要: VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.21781v1
- Date: Thu, 27 Mar 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:11.254471
- Title: VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models
- Title(参考訳): VideoMage: テキスト-ビデオ拡散モデルのマルチオブジェクトとモーションカスタマイズ
- Authors: Chi-Pin Huang, Yen-Siang Wu, Hung-Kai Chung, Kai-Po Chang, Fu-En Yang, Yu-Chiang Frank Wang,
- Abstract要約: VideoMageは、ユーザーが提供する画像やビデオからパーソナライズされたコンテンツをキャプチャするために、被写体とモーションのLoRAを使用している。
所望の動作パターンの中で被験者間の相互作用を導くための時空間合成手法を開発した。
- 参考スコア(独自算出の注目度): 24.004996738924902
- License:
- Abstract: Customized text-to-video generation aims to produce high-quality videos that incorporate user-specified subject identities or motion patterns. However, existing methods mainly focus on personalizing a single concept, either subject identity or motion pattern, limiting their effectiveness for multiple subjects with the desired motion patterns. To tackle this challenge, we propose a unified framework VideoMage for video customization over both multiple subjects and their interactive motions. VideoMage employs subject and motion LoRAs to capture personalized content from user-provided images and videos, along with an appearance-agnostic motion learning approach to disentangle motion patterns from visual appearance. Furthermore, we develop a spatial-temporal composition scheme to guide interactions among subjects within the desired motion patterns. Extensive experiments demonstrate that VideoMage outperforms existing methods, generating coherent, user-controlled videos with consistent subject identities and interactions.
- Abstract(参考訳): カスタマイズされたテキスト・トゥ・ビデオ生成は、ユーザーが特定した主題のアイデンティティやモーション・パターンを組み込んだ高品質なビデオを作成することを目的としている。
しかし,既存の手法は,主観的同一性や動作パターンといった単一概念のパーソナライズに重点を置いており,目的とする動作パターンを持つ複数の被験者に対する有効性を制限している。
この課題に対処するために,複数の主題と対話的動作の両方を対象とするビデオカスタマイズのための統合フレームワークVideoMageを提案する。
VideoMageは、パーソナライズされた画像やビデオからパーソナライズされたコンテンツをキャプチャするために、主観とモーションのLoRAを使用する。
さらに,所望の動作パターンの中で被験者間の相互作用を誘導する時空間合成手法を開発した。
大規模な実験により、VideoMageは既存の手法よりも優れており、一貫した主観的アイデンティティとインタラクションを持つ一貫性のあるユーザ制御ビデオを生成する。
関連論文リスト
- MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation [65.74312406211213]
本稿では,映像生成の文脈で撮影映像を設計する手法を提案する。
I2V合成において,従来のコンピュータグラフィックスと現代映像生成技術からの洞察を結合することにより,3次元動作制御を実現する能力を示す。
論文 参考訳(メタデータ) (2025-02-06T18:41:04Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - NewMove: Customizing text-to-video models with novel motions [74.9442859239997]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z) - Dual-MTGAN: Stochastic and Deterministic Motion Transfer for
Image-to-Video Synthesis [38.41763708731513]
本稿では,映像データと映像データを入力として取り込むDual Motion Transfer GAN(Dual-MTGAN)を提案する。
我々のDual-MTGANは、決定論的モーショントランスファーとモーションジェネレーションを行うことができる。
提案モデルは、ポーズや顔のランドマークのような事前定義された動作特徴を利用することなく、エンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-02-26T06:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。