論文の概要: StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion
- arxiv url: http://arxiv.org/abs/2503.21775v1
- Date: Thu, 27 Mar 2025 17:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:55:09.983918
- Title: StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion
- Title(参考訳): StyleMotif: Style-Content Cross Fusion を用いたマルチモーダルモーションスティル化
- Authors: Ziyu Guo, Young Yoon Lee, Joseph Liu, Yizhak Ben-Shabat, Victor Zordan, Mubbasir Kapadia,
- Abstract要約: StyleMotifはStylized Motion Latent Diffusionモデルである。
複数のモダリティからコンテンツとスタイルの両方に条件付けされた動作を生成する。
- 参考スコア(独自算出の注目度): 14.213279927964903
- License:
- Abstract: We present StyleMotif, a novel Stylized Motion Latent Diffusion model, generating motion conditioned on both content and style from multiple modalities. Unlike existing approaches that either focus on generating diverse motion content or transferring style from sequences, StyleMotif seamlessly synthesizes motion across a wide range of content while incorporating stylistic cues from multi-modal inputs, including motion, text, image, video, and audio. To achieve this, we introduce a style-content cross fusion mechanism and align a style encoder with a pre-trained multi-modal model, ensuring that the generated motion accurately captures the reference style while preserving realism. Extensive experiments demonstrate that our framework surpasses existing methods in stylized motion generation and exhibits emergent capabilities for multi-modal motion stylization, enabling more nuanced motion synthesis. Source code and pre-trained models will be released upon acceptance. Project Page: https://stylemotif.github.io
- Abstract(参考訳): 複数モーダルからコンテンツとスタイルに条件付けされた動作を生成する新モデルであるStylized Motion Latent DiffusionモデルであるStyleMotifを提案する。
StyleMotifは、さまざまなモーションコンテンツの生成や、シーケンスからのスタイルの転送に重点を置いている既存のアプローチとは異なり、モーション、テキスト、イメージ、ビデオ、オーディオなどのマルチモーダル入力からのスタイリスティックなヒントを取り入れながら、幅広いコンテンツにわたる動作をシームレスに合成する。
これを実現するため、我々はスタイルコンテントのクロスフュージョン機構を導入し、スタイルエンコーダを事前訓練されたマルチモーダルモデルに整列させ、生成した動きがリアリズムを保ちながら参照スタイルを正確にキャプチャすることを保証する。
大規模な実験により,本フレームワークは従来のスタイル化動作生成手法を超越し,よりニュアンスな動作合成が可能なマルチモーダル動作スタイリゼーションの創発的能力を示すことが示された。
ソースコードと事前訓練されたモデルは、受理時にリリースされる。
Project Page: https://stylemotif.github.io
関連論文リスト
- MulSMo: Multimodal Stylized Motion Generation by Bidirectional Control Flow [11.491447470132279]
既存の方法では、情報は通常、スタイルからコンテンツへのみ流れ、スタイルとコンテンツの間に衝突を引き起こす可能性がある。
この作業では、スタイルとコンテンツの間に双方向の制御フローを構築し、そのスタイルをコンテンツに向けて調整します。
我々は、文や画像を含む複数のモダリティに1つのモダリティ、すなわちスタイル運動から、コントラスト学習を通じてスタイル化されたモーション生成を拡張する。
論文 参考訳(メタデータ) (2024-12-13T06:40:26Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - SMooDi: Stylized Motion Diffusion Model [46.293854851116215]
本稿では、コンテンツテキストとスタイルシーケンスによって駆動されるスタイル化された動作を生成するための、SMooDiと呼ばれる新しいスティル化モーション拡散モデルを提案する。
提案手法は,従来のスタイル化動作生成手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-17T17:59:42Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Generative Human Motion Stylization in Latent Space [42.831468727082694]
単一動作(遅延)符号の多種多様なスタイリング結果を生成する新しい生成モデルを提案する。
推論では、ユーザーは参照動作やラベルからスタイルキューを使用して動きをスタイル化することができる。
提案手法は, 軽量な設計にもかかわらず, スタイル再現, コンテンツ保存, 一般化において, 最先端のスタイリングモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-01-24T14:53:13Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - NewMove: Customizing text-to-video models with novel motions [74.9442859239997]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Style-ERD: Responsive and Coherent Online Motion Style Transfer [13.15016322155052]
スタイル転送はキャラクターアニメーションを豊かにする一般的な方法である。
動きをオンラインでスタイル化するための新しいスタイル転送モデルであるStyle-ERDを提案する。
本手法は,動作を複数のターゲットスタイルに統一したモデルでスタイリングする。
論文 参考訳(メタデータ) (2022-03-04T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。