論文の概要: From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts
- arxiv url: http://arxiv.org/abs/2508.09476v1
- Date: Wed, 13 Aug 2025 04:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.754084
- Title: From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts
- Title(参考訳): 大きな角度から一貫性のある顔へ:顔の専門家の混在によるアイデンティティ保存ビデオ生成
- Authors: Yuji Wang, Moran Li, Xiaobin Hu, Ran Yi, Jiangning Zhang, Chengming Xu, Weijian Cao, Yabiao Wang, Chengjie Wang, Lizhuang Ma,
- Abstract要約: 顔の特徴の異なるが相互に強化された側面を捉えた顔専門家の混合(MoFE)を導入する。
データセットの制限を軽減するため、私たちは、Face ConstraintsとIdentity Consistencyという2つの重要な側面を中心としたデータ処理パイプラインを調整しました。
我々は、既存のオープンソースヒューマンビデオデータセットからLFA(Large Face Angles)データセットをキュレートし、洗練しました。
- 参考スコア(独自算出の注目度): 69.44297222099175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current video generation models struggle with identity preservation under large facial angles, primarily facing two challenges: the difficulty in exploring an effective mechanism to integrate identity features into DiT structure, and the lack of targeted coverage of large facial angles in existing open-source video datasets. To address these, we present two key innovations. First, we introduce a Mixture of Facial Experts (MoFE) that dynamically combines complementary cues from three specialized experts, each designed to capture distinct but mutually reinforcing aspects of facial attributes. The identity expert captures cross-pose identity-sensitive features, the semantic expert extracts high-level visual semantxics, and the detail expert preserves pixel-level features (e.g., skin texture, color gradients). Furthermore, to mitigate dataset limitations, we have tailored a data processing pipeline centered on two key aspects: Face Constraints and Identity Consistency. Face Constraints ensure facial angle diversity and a high proportion of facial regions, while Identity Consistency preserves coherent person-specific features across temporal sequences, collectively addressing the scarcity of large facial angles and identity-stable training data in existing datasets. Leveraging this pipeline, we have curated and refined a Large Face Angles (LFA) Dataset from existing open-source human video datasets, comprising 460K video clips with annotated facial angles. Experimental results on the LFA benchmark demonstrate that our method, empowered by the LFA dataset, significantly outperforms prior SOTA methods in face similarity, face FID, and CLIP semantic alignment. The code and dataset will be made publicly available at https://github.com/rain152/LFA-Video-Generation.
- Abstract(参考訳): 現在のビデオ生成モデルは、大きな顔の角度下でのアイデンティティ保存に苦慮しており、主に、DiT構造にアイデンティティ機能を統合するための効果的なメカニズムを探索することの難しさと、既存のオープンソースのビデオデータセットにおける大きな顔の角度のターゲット範囲の欠如という2つの課題に直面している。
これらに対処するために、私たちは2つの重要なイノベーションを提示します。
まず,3つの専門専門家の相補的手がかりを動的に組み合わせ,顔特性の相補的・相互強化的な側面を捉えることを意図した顔専門家混合(MoFE)を提案する。
アイデンティティエキスパートは、クロスポジションのアイデンティティに敏感な特徴をキャプチャし、セマンティックエキスパートはハイレベルな視覚セマントックスを抽出し、詳細専門家はピクセルレベルの特徴(例えば、肌のテクスチャ、色勾配)を保存する。
さらに、データセットの制限を軽減するために、顔制約とアイデンティティ一貫性という2つの重要な側面を中心としたデータ処理パイプラインを調整しました。
顔制約は顔の角度の多様性を保証し、顔領域の比率を高くする一方、アイデンティティ一貫性は、時間的シーケンスにわたって一貫性のある人特有の特徴を保持し、既存のデータセットにおける大きな顔の角度と識別可能なトレーニングデータの不足に対処する。
このパイプラインを活用して、既存のオープンソースの人間のビデオデータセットから460Kのビデオクリップと注釈付き顔アングル(LFA)データセットをキュレートし、洗練しました。
LFAベンチマークによる実験結果から,従来のSOTA手法と類似性,顔のFID,CLIPのセマンティックアライメントが有意に優れていた。
コードとデータセットはhttps://github.com/rain152/LFA-Video-Generation.comで公開される。
関連論文リスト
- Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.608872317957026]
リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。
参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文 参考訳(メタデータ) (2025-03-09T02:36:31Z) - G2Face: High-Fidelity Reversible Face Anonymization via Generative and Geometric Priors [71.69161292330504]
可逆顔匿名化(Reversible face anonymization)は、顔画像の繊細なアイデンティティ情報を、合成された代替品に置き換えようとしている。
本稿では,Gtextsuperscript2Faceを提案する。
提案手法は,高データの有効性を保ちながら,顔の匿名化と回復において既存の最先端技術よりも優れる。
論文 参考訳(メタデータ) (2024-08-18T12:36:47Z) - ConsistentID: Portrait Generation with Multimodal Fine-Grained Identity Preserving [64.90148669690228]
ConsistentIDは、微細なマルチモーダル顔のプロンプト下での多彩な画像生成のための革新的な手法である。
我々は、50万以上の顔画像を持つ、きめ細かいポートレートデータセットFGIDを提示し、既存の顔データセットよりも多様性と包括性を提供する。
論文 参考訳(メタデータ) (2024-04-25T17:23:43Z) - FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping [62.38898610210771]
そこで我々は,FaceDancerという顔のスワップとID転送のための新しい単一ステージ手法を提案する。
アダプティブ・フィーチャー・フュージョン・アテンション(AFFA)と解釈的特徴類似性規則化(IFSR)の2つの主要なコントリビューションがある。
論文 参考訳(メタデータ) (2022-10-19T11:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。