論文の概要: FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2507.12956v1
- Date: Thu, 17 Jul 2025 09:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.442351
- Title: FantasyPortrait: Enhancing Multi-Character Portrait Animation with Expression-Augmented Diffusion Transformers
- Title(参考訳): Fantasy Portrait: 表現強化拡散変換器によるマルチキャラクタ・ポートレートアニメーションの強化
- Authors: Qiang Wang, Mengchao Wang, Fan Jiang, Yaqi Fan, Yonggang Qi, Mu Xu,
- Abstract要約: 本稿では,高忠実かつ感情豊かなアニメーションを生成可能な拡散トランスフォーマーベースのフレームワークであるFantasyPortraitを提案する。
本手法では,暗黙の表現を利用した表情強化学習戦略を導入し,その特徴を認識できない顔のダイナミクスを捉える。
マルチキャラクタ制御のために、独立に調整された表現生成を保証するマスク付きクロスアテンション機構を設計する。
- 参考スコア(独自算出の注目度): 10.4806619052953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Producing expressive facial animations from static images is a challenging task. Prior methods relying on explicit geometric priors (e.g., facial landmarks or 3DMM) often suffer from artifacts in cross reenactment and struggle to capture subtle emotions. Furthermore, existing approaches lack support for multi-character animation, as driving features from different individuals frequently interfere with one another, complicating the task. To address these challenges, we propose FantasyPortrait, a diffusion transformer based framework capable of generating high-fidelity and emotion-rich animations for both single- and multi-character scenarios. Our method introduces an expression-augmented learning strategy that utilizes implicit representations to capture identity-agnostic facial dynamics, enhancing the model's ability to render fine-grained emotions. For multi-character control, we design a masked cross-attention mechanism that ensures independent yet coordinated expression generation, effectively preventing feature interference. To advance research in this area, we propose the Multi-Expr dataset and ExprBench, which are specifically designed datasets and benchmarks for training and evaluating multi-character portrait animations. Extensive experiments demonstrate that FantasyPortrait significantly outperforms state-of-the-art methods in both quantitative metrics and qualitative evaluations, excelling particularly in challenging cross reenactment and multi-character contexts. Our project page is https://fantasy-amap.github.io/fantasy-portrait/.
- Abstract(参考訳): 静的画像から表現力のある顔のアニメーションを作成することは難しい課題である。
以前の手法は、明示的な幾何学的先行(例えば、顔のランドマークや3DMM)に依存しており、しばしば横断的な再現や微妙な感情の獲得に苦慮している。
さらに、既存のアプローチでは、異なる個人の特徴の駆動がタスクを複雑にし、頻繁に互いに干渉するため、マルチキャラクタアニメーションのサポートが欠如している。
これらの課題に対処するために,FantasyPortraitを提案する。FantasyPortraitは拡散トランスフォーマーをベースとしたフレームワークで,単一および複数文字のシナリオに対して高忠実で感情豊かなアニメーションを生成することができる。
そこで本手法では,暗黙の表現を利用した表情強調学習手法を導入し,個人性に依存しない顔のダイナミクスを捉え,モデルが微粒な感情を表現できる能力を向上する。
マルチキャラクタ制御のために、独立に調整された表現生成を保証し、機能干渉を効果的に防止するマスク付きクロスアテンション機構を設計する。
この領域の研究を進めるために,マルチキャラクタ・ポートレート・アニメーションのトレーニングと評価のためのデータセットとベンチマークを特別に設計したMulti-ExprデータセットとExprBenchを提案する。
大規模な実験により、FantasyPortraitは定量測定と定性評価の両方において最先端の手法を著しく上回り、特に難解なクロス再現とマルチキャラクタの文脈において優れていることが示された。
私たちのプロジェクトページはhttps://fantasy-amap.github.io/fantasy-portrait/です。
関連論文リスト
- EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers [30.06494915665044]
ポートレート画像アニメーションを容易にするために,ビデオ拡散トランスフォーマを基盤としたSkyReels-A1を提案する。
SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動き伝達精度、アイデンティティ保持、時間的コヒーレンスを向上させる。
仮想アバター、リモート通信、デジタルメディア生成などの領域に適用可能である。
論文 参考訳(メタデータ) (2025-02-15T16:08:40Z) - Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer [25.39030226963548]
ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。
提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文 参考訳(メタデータ) (2024-12-01T08:54:30Z) - GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Towards Multiple Character Image Animation Through Enhancing Implicit Decoupling [77.08568533331206]
文字画像アニメーションのための新しい多条件ガイドフレームワークを提案する。
我々は、モデルが暗黙的に疎結合する能力を高めるために、よく設計された入力モジュールをいくつか採用する。
本手法は,特に複雑な背景と複数の文字のシナリオにおいて,高品質なキャラクタアニメーションの生成に優れる。
論文 参考訳(メタデータ) (2024-06-05T08:03:18Z) - Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation [53.767090490974745]
Follow-Your-Emojiは、ポートレートアニメーションのための拡散ベースのフレームワークである。
参照ポートレートとターゲットランドマークシーケンスを識別する。
本手法は,フリースタイルの肖像画の表現を制御できることを実証する。
論文 参考訳(メタデータ) (2024-06-04T02:05:57Z) - EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars [36.96390906514729]
MegaPortraitsモデルは、この領域で最先端の結果を示している。
EMOPortraitsモデルを紹介します。 強靭で非対称な顔表現を忠実にサポートするモデルの能力を強化する。
そこで本研究では,多彩な表情と非対称な表情を特徴とする新しい多視点ビデオデータセットを提案する。
論文 参考訳(メタデータ) (2024-04-29T21:23:29Z) - FlowVQTalker: High-Quality Emotional Talking Face Generation through Normalizing Flow and Quantization [4.429892245774265]
本稿では,正規化フローとベクトル量子化モデルを用いて感情的な発話顔を生成することを提案する。
具体的には、顔の感情のダイナミクスを多感情階級の潜在空間にエンコードするフローベース係数生成器を開発する。
設計したベクトル量子化画像生成器は、コードクエリータスクとして表現力のある顔画像を作成する。
論文 参考訳(メタデータ) (2024-03-11T01:58:04Z) - GMTalker: Gaussian Mixture-based Audio-Driven Emotional Talking Video Portraits [60.05683966405544]
GMTalkerはガウスの混合合成による感情的な音声画像生成フレームワークである。
具体的には,よりフレキシブルな感情操作を実現するために,連続的かつ不整合な潜在空間を提案する。
また,多種多様な頭部ポーズ,瞬き,眼球運動を生成するために,大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
論文 参考訳(メタデータ) (2023-12-12T19:03:04Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Explicitly Controllable 3D-Aware Portrait Generation [42.30481422714532]
ポーズ,アイデンティティ,表現,照明に関する意味的パラメータに基づいて,一貫した肖像画を生成する3次元肖像画生成ネットワークを提案する。
提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。
論文 参考訳(メタデータ) (2022-09-12T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。