Fugu-MT 論文翻訳(概要): X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention

論文の概要: X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention

arxiv url: http://arxiv.org/abs/2403.15931v4
Date: Thu, 25 Jul 2024 22:45:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 18:02:02.459836
Title: X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention
Title（参考訳）: X-ポートレート:階層的な動きを意図した表現的ポートレートアニメーション
Authors: You Xie, Hongyi Xu, Guoxian Song, Chao Wang, Yichun Shi, Linjie Luo,
Abstract要約: 本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。外観参照として1つのポートレートが与えられた場合、駆動ビデオから得られる動きをアニメーション化し、非常にダイナミックかつ微妙な表情をキャプチャすることを目的としている。実験により,X-ポートレートの多彩な顔画像および表現力のある運転シーケンスに対する普遍的効果が示された。
参考スコア（独自算出の注目度）: 18.211762995744337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose X-Portrait, an innovative conditional diffusion model tailored for generating expressive and temporally coherent portrait animation. Specifically, given a single portrait as appearance reference, we aim to animate it with motion derived from a driving video, capturing both highly dynamic and subtle facial expressions along with wide-range head movements. As its core, we leverage the generative prior of a pre-trained diffusion model as the rendering backbone, while achieve fine-grained head pose and expression control with novel controlling signals within the framework of ControlNet. In contrast to conventional coarse explicit controls such as facial landmarks, our motion control module is learned to interpret the dynamics directly from the original driving RGB inputs. The motion accuracy is further enhanced with a patch-based local control module that effectively enhance the motion attention to small-scale nuances like eyeball positions. Notably, to mitigate the identity leakage from the driving signals, we train our motion control modules with scaling-augmented cross-identity images, ensuring maximized disentanglement from the appearance reference modules. Experimental results demonstrate the universal effectiveness of X-Portrait across a diverse range of facial portraits and expressive driving sequences, and showcase its proficiency in generating captivating portrait animations with consistently maintained identity characteristics.
Abstract（参考訳）: 本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。具体的には、外観基準として1つのポートレートを考慮し、動画像から得られる動きをアニメーション化し、非常にダイナミックで微妙な表情と広角な頭部の動きをキャプチャすることを目的としている。その中核として、予め訓練された拡散モデルの生成前をレンダリングバックボーンとして利用し、制御ネットのフレームワーク内で新しい制御信号による微粒な頭部ポーズと表現制御を実現した。顔のランドマークのような従来の粗い明示的な制御とは対照的に、動作制御モジュールは、元の駆動RGB入力から直接ダイナミクスを解釈する。さらに、眼球位置のような小さなニュアンスに対する動きの注意を効果的に高めるパッチベースの局所制御モジュールにより、動きの精度をさらに向上する。特に、駆動信号からのIDリークを軽減するため、我々は、拡張されたクロスアイデンティティ画像を用いてモーションコントロールモジュールを訓練し、外観基準モジュールからの最大のゆがみを確保する。実験により,多様な顔画像と表現的運転シーケンスにまたがるX-ポートレートの普遍的有効性を示し,一貫したアイデンティティ特性を持つキャプティベーション・ポートレート・アニメーションの生成能力を示した。

関連論文リスト

FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis [12.987186425491242]
本研究では,高忠実でコヒーレントな音声画像と制御可能なモーションダイナミックスを生成するための新しい枠組みを提案する。最初の段階では、コヒーレントなグローバルな動きを確立するためにクリップレベルのトレーニングスキームを採用している。第2段階では、リップトレーシングマスクを用いて、フレームレベルでの唇の動きを洗練し、音声信号との正確な同期を確保する。
論文参考訳（メタデータ） (2025-04-07T08:56:01Z)
HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation [30.030540407121325]
HunyuanPortraitは、ポートレートアニメーションの拡散に基づく条件制御方法である。運転映像の表情と頭部ポーズにより、基準画像中のキャラクタをアニメーション化することができる。我々のフレームワークは既存の手法より優れ、時間的一貫性と制御性に優れていた。
論文参考訳（メタデータ） (2025-03-24T16:35:41Z)
X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文参考訳（メタデータ） (2025-01-17T08:10:53Z)
GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文参考訳（メタデータ） (2024-09-18T13:05:43Z)
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文参考訳（メタデータ） (2024-08-08T17:59:38Z)
LinguaLinker: Audio-Driven Portraits Animation with Implicit Facial Control Enhancement [8.973545189395953]
本研究では,拡散に基づく手法による視覚的に魅力的な時間同期アニメーションの作成に焦点をあてる。我々は音声の特徴を別々に処理し、画像の出自に関わらず、口、目、頭の動きを暗黙的に制御する対応する制御ゲートを導出する。アニメーションポートレートの忠実さ,リップシンクの正確さ,および本手法により達成された適切な動作変化の大幅な改善により,任意の言語でポートレートをアニメーションするための汎用ツールとなった。
論文参考訳（メタデータ） (2024-07-26T08:30:06Z)
EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars [36.96390906514729]
MegaPortraitsモデルは、この領域で最先端の結果を示している。 EMOPortraitsモデルを紹介します。強靭で非対称な顔表現を忠実にサポートするモデルの能力を強化する。そこで本研究では,多彩な表情と非対称な表情を特徴とする新しい多視点ビデオデータセットを提案する。
論文参考訳（メタデータ） (2024-04-29T21:23:29Z)
DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis [18.64688172651478]
本稿では,DiffPortrait3Dについて述べる。DiffPortrait3Dは,3次元一貫性のあるフォトリアリスティック・ノベルビューを合成できる条件拡散モデルである。一つのRGB入力が与えられた場合、我々は、新しいカメラビューから表現された、可塑性だが一貫した顔の詳細を合成することを目指している。我々は、我々の挑戦的インザワイルドとマルチビューのベンチマークにおいて、質的にも定量的にも、最先端の結果を実証する。
論文参考訳（メタデータ） (2023-12-20T13:31:11Z)
MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。 MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文参考訳（メタデータ） (2023-12-08T16:31:04Z)
Learning Motion Refinement for Unsupervised Face Animation [45.807582064277305]
教師なしの顔アニメーションは、原画像の外観に基づいて人間の顔映像を生成し、運転映像の動作を模倣することを目的としている。既存の手法では、通常、先行した動きモデル(例えば、局所的なアフィン運動モデルや局所的な薄板・スプライン運動モデル)を採用する。本研究では、粗い動きと細い動きを同時に学習するための、教師なしの顔アニメーション手法を設計する。
論文参考訳（メタデータ） (2023-10-21T05:52:25Z)
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold [79.94300820221996]
DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
論文参考訳（メタデータ） (2023-05-18T13:41:25Z)
High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文参考訳（メタデータ） (2023-04-20T09:02:41Z)
Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-20T09:28:16Z)
PIRenderer: Controllable Portrait Image Generation via Semantic Neural Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文参考訳（メタデータ） (2021-09-17T07:24:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。