論文の概要: ExpPortrait: Expressive Portrait Generation via Personalized Representation
- arxiv url: http://arxiv.org/abs/2602.19900v1
- Date: Mon, 23 Feb 2026 14:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.857921
- Title: ExpPortrait: Expressive Portrait Generation via Personalized Representation
- Title(参考訳): ExpPortrait:パーソナライズされた表現による表現的画像生成
- Authors: Junyi Wang, Yudong Guo, Boyang Guo, Shengming Yang, Juyong Zhang,
- Abstract要約: 本稿では,表現とアイデンティティをより効果的に切り離した,高忠実度パーソナライズされた頭部表現を提案する。
この表現は、静的、主題固有のグローバルジオメトリと、動的、表現に関する詳細の両方をキャプチャする。
この高度で表現性の高い頭部モデルを条件信号として、拡散トランスフォーマ(DiT)ベースのジェネレータを訓練し、高精細なポートレート映像を合成する。
- 参考スコア(独自算出の注目度): 26.785472525811432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion models have shown great potential in portrait generation, generating expressive, coherent, and controllable cinematic portrait videos remains a significant challenge. Existing intermediate signals for portrait generation, such as 2D landmarks and parametric models, have limited disentanglement capabilities and cannot express personalized details due to their sparse or low-rank representation. Therefore, existing methods based on these models struggle to accurately preserve subject identity and expressions, hindering the generation of highly expressive portrait videos. To overcome these limitations, we propose a high-fidelity personalized head representation that more effectively disentangles expression and identity. This representation captures both static, subject-specific global geometry and dynamic, expression-related details. Furthermore, we introduce an expression transfer module to achieve personalized transfer of head pose and expression details between different identities. We use this sophisticated and highly expressive head model as a conditional signal to train a diffusion transformer (DiT)-based generator to synthesize richly detailed portrait videos. Extensive experiments on self- and cross-reenactment tasks demonstrate that our method outperforms previous models in terms of identity preservation, expression accuracy, and temporal stability, particularly in capturing fine-grained details of complex motion.
- Abstract(参考訳): 拡散モデルは肖像画生成に大きな可能性を示してきたが、表現力、コヒーレント、制御可能な撮影用肖像画ビデオを生成することは大きな課題である。
2Dランドマークやパラメトリックモデルのような既存の画像生成用中間信号は、ゆがみが限られており、その疎さや低ランク表現のためにパーソナライズされた詳細を表現できない。
したがって、これらのモデルに基づく既存の手法は、対象のアイデンティティと表現を正確に保存するのに苦労し、高度に表現力のあるポートレートビデオの生成を妨げている。
これらの制約を克服するために,表現やアイデンティティをより効果的に切り離した,高忠実度パーソナライズされた頭部表現を提案する。
この表現は、静的、主題固有のグローバルジオメトリと、動的、表現に関する詳細の両方をキャプチャする。
さらに,表現伝達モジュールを導入し,異なる個人間の頭部ポーズと表現の詳細をパーソナライズする。
この高度で表現性の高い頭部モデルを条件信号として、拡散トランスフォーマ(DiT)ベースのジェネレータを訓練し、高精細なポートレート映像を合成する。
自己および横断的再現タスクに関する広範囲な実験により、我々の手法は、特に複雑な動きのきめ細かい詳細を捉える際に、アイデンティティの保存、表現精度、時間的安定性において、過去のモデルよりも優れていたことが示される。
関連論文リスト
- ID-Consistent, Precise Expression Generation with Blendshape-Guided Diffusion [40.50436862878818]
特定の表情の被写体を忠実に再現する拡散型フレームワークを提案する。
我々のアダプタは、基本的な感情を超えて微妙なマイクロ表現と表現的遷移を一般化する。
さらに、プラグ可能な参照アダプタは、合成中に参照フレームから外観を転送することで、実画像での表現編集を可能にする。
論文 参考訳(メタデータ) (2025-10-06T11:20:56Z) - Multi-focal Conditioned Latent Diffusion for Person Image Synthesis [59.113899155476005]
遅延拡散モデル(LDM)は高解像度画像生成において強力な機能を示した。
これらの制約に対処する多焦点条件付き潜時拡散法(MCLD)を提案する。
本手法では,顔の同一性やテクスチャ固有の情報を効果的に統合する多焦点条件アグリゲーションモジュールを利用する。
論文 参考訳(メタデータ) (2025-03-19T20:50:10Z) - EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation [8.314556078632412]
ポートレート生成における極めて詳細な表現(RGBレベル)と高忠実度IDの同時制御を可能にする,最初のエンドツーエンドソリューションであるEmojiDiffを紹介する。
分離学習では、ID非関連データイテレーション(IDI)を改良し、相互同一性表現ペアを合成する。
また,さらに微調整を行うために,ID強化コントラストアライメント(ICA)を提案する。
論文 参考訳(メタデータ) (2024-12-02T08:24:11Z) - Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation [53.767090490974745]
Follow-Your-Emojiは、ポートレートアニメーションのための拡散ベースのフレームワークである。
参照ポートレートとターゲットランドマークシーケンスを識別する。
本手法は,フリースタイルの肖像画の表現を制御できることを実証する。
論文 参考訳(メタデータ) (2024-06-04T02:05:57Z) - EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars [36.96390906514729]
MegaPortraitsモデルは、この領域で最先端の結果を示している。
EMOPortraitsモデルを紹介します。 強靭で非対称な顔表現を忠実にサポートするモデルの能力を強化する。
そこで本研究では,多彩な表情と非対称な表情を特徴とする新しい多視点ビデオデータセットを提案する。
論文 参考訳(メタデータ) (2024-04-29T21:23:29Z) - Towards a Simultaneous and Granular Identity-Expression Control in Personalized Face Generation [34.72612800373437]
人間中心のコンテンツ生成では、事前訓練されたテキスト・ツー・イメージモデルでは、ユーザーが望んだポートレート画像を生成するのに苦労する。
同一性表現の同時制御とよりきめ細かい表現合成が可能な,新しい多モード顔生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-02T13:28:39Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural
Radiance Field [81.07651217942679]
トーキングヘッド生成は、ソース画像の識別情報を保持し、駆動画像の動作を模倣する顔を生成することを目的としている。
我々は高忠実かつ自由視点の対話ヘッド合成を実現するHiDe-NeRFを提案する。
論文 参考訳(メタデータ) (2023-04-11T09:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。