論文の概要: MVPortrait: Text-Guided Motion and Emotion Control for Multi-view Vivid Portrait Animation
- arxiv url: http://arxiv.org/abs/2503.19383v1
- Date: Tue, 25 Mar 2025 06:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:28.053843
- Title: MVPortrait: Text-Guided Motion and Emotion Control for Multi-view Vivid Portrait Animation
- Title(参考訳): MVPortrait:多視点視覚的ポートレートアニメーションのためのテキストガイド運動と感情制御
- Authors: Yukang Lin, Hokit Fung, Jianjin Xu, Zeping Ren, Adela S. M. Lau, Guosheng Yin, Xiu Li,
- Abstract要約: 本稿では,表現力のあるマルチビュー・ポートレート・アニメーションを生成するための2段階のテキスト誘導フレームワークMVPortraitを提案する。
MVPortraitは、FLAMEを中間表現として導入し、顔の動き、表情、ビュー変換を効果的に埋め込んだ最初の企業である。
実験結果から,MVPortraitは既存手法よりも動作制御や感情制御,視点整合性に優れていた。
- 参考スコア(独自算出の注目度): 25.311518523175252
- License:
- Abstract: Recent portrait animation methods have made significant strides in generating realistic lip synchronization. However, they often lack explicit control over head movements and facial expressions, and cannot produce videos from multiple viewpoints, resulting in less controllable and expressive animations. Moreover, text-guided portrait animation remains underexplored, despite its user-friendly nature. We present a novel two-stage text-guided framework, MVPortrait (Multi-view Vivid Portrait), to generate expressive multi-view portrait animations that faithfully capture the described motion and emotion. MVPortrait is the first to introduce FLAME as an intermediate representation, effectively embedding facial movements, expressions, and view transformations within its parameter space. In the first stage, we separately train the FLAME motion and emotion diffusion models based on text input. In the second stage, we train a multi-view video generation model conditioned on a reference portrait image and multi-view FLAME rendering sequences from the first stage. Experimental results exhibit that MVPortrait outperforms existing methods in terms of motion and emotion control, as well as view consistency. Furthermore, by leveraging FLAME as a bridge, MVPortrait becomes the first controllable portrait animation framework that is compatible with text, speech, and video as driving signals.
- Abstract(参考訳): 近年のポートレートアニメーション法は, リアルな唇同期の生成に大きく貢献している。
しかし、顔の動きや表情に対する明確な制御が欠如しており、複数の視点からビデオを生成することができないため、制御しやすく表現力のあるアニメーションは少ない。
さらに、ユーザフレンドリーな性質にもかかわらず、テキスト誘導のポートレートアニメーションは未発見のままである。
本稿では、2段階のテキスト誘導フレームワークMVPortrait(Multi-view Vivid Portrait)を提案する。
MVPortraitは、FLAMEを中間表現として導入し、そのパラメータ空間内に顔の動き、表情、ビュー変換を効果的に埋め込んだ最初の企業である。
第1段階では、テキスト入力に基づいてFLAME動作と感情拡散モデルを別々に訓練する。
第2段階では、参照ポートレート画像とマルチビューFLAMEレンダリングシーケンスに基づいて、第1ステージからマルチビュー映像生成モデルを訓練する。
実験結果から,MVPortraitは既存手法よりも動作制御や感情制御,視点整合性に優れていた。
さらに、FLAMEをブリッジとして活用することにより、MVPortraitは、テキスト、音声、動画を駆動信号として互換性のある、制御可能な初めてのポートレートアニメーションフレームワークとなる。
関連論文リスト
- JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation [10.003794924759765]
JoyVASAは、音声駆動型顔アニメーションにおける顔の動きと頭部の動きを生成する拡散法である。
本研究では,静的な3次元顔表現から動的表情を分離する分離された顔表現フレームワークを提案する。
第2段階では、拡散変圧器を訓練し、文字の同一性によらず、オーディオキューから直接動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-11-14T06:13:05Z) - Animate-X: Universal Character Image Animation with Enhanced Motion Representation [42.73097432203482]
Animate-X は LDM をベースとした汎用アニメーションフレームワークであり、人為的文字を含む様々な文字タイプに対応している。
我々は、暗黙的かつ明示的な方法で、運転映像から包括的な動きパターンをキャプチャするPose Indicatorを紹介した。
また,アニメーション画像におけるAnimate-Xの性能を評価するために,新しいアニメーション擬人化ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-10-14T09:06:55Z) - Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation [53.767090490974745]
Follow-Your-Emojiは、ポートレートアニメーションのための拡散ベースのフレームワークである。
参照ポートレートとターゲットランドマークシーケンスを識別する。
本手法は,フリースタイルの肖像画の表現を制御できることを実証する。
論文 参考訳(メタデータ) (2024-06-04T02:05:57Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation [43.04371187071256]
本研究では,3次元アバターにおける鮮明で感情的な3次元共同音声ジェスチャを生成する新しい手法を提案する。
そこで我々は,ChatGPT-4と音声インペインティング手法を用いて,高忠実度感情遷移音声を構築する。
本手法は,1つの感情条件に適応して構築した最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2023-11-29T11:10:40Z) - Breathing Life Into Sketches Using Text-to-Video Priors [101.8236605955899]
スケッチは、人間が自分のアイデアを視覚的に伝えるために使う最も直感的で汎用性の高いツールの1つです。
本研究では,単一オブジェクトのスケッチに動きを自動的に付加する手法を提案する。
出力はベクトル表現で提供される短いアニメーションで、簡単に編集できる。
論文 参考訳(メタデータ) (2023-11-21T18:09:30Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。
本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文 参考訳(メタデータ) (2022-08-11T02:57:30Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。