論文の概要: FaceEditTalker: Interactive Talking Head Generation with Facial Attribute Editing
- arxiv url: http://arxiv.org/abs/2505.22141v1
- Date: Wed, 28 May 2025 09:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.519903
- Title: FaceEditTalker: Interactive Talking Head Generation with Facial Attribute Editing
- Title(参考訳): FaceEditTalker: 顔属性編集による対話型トーキングヘッドジェネレーション
- Authors: Guanwen Feng, Zhiyuan Ma, Yunan Li, Junwei Jing, Jiahao Yang, Qiguang Miao,
- Abstract要約: FaceEditTalkerは、コントロール可能な顔属性操作を可能にする統合フレームワークである。
高品質な音声同期ヘッドビデオを生成する。
本手法は, リップ同期精度, 映像品質, 属性制御性において, 最先端の手法よりも優れる。
- 参考スコア(独自算出の注目度): 12.705466241473845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in audio-driven talking head generation have achieved impressive results in lip synchronization and emotional expression. However, they largely overlook the crucial task of facial attribute editing. This capability is crucial for achieving deep personalization and expanding the range of practical applications, including user-tailored digital avatars, engaging online education content, and brand-specific digital customer service. In these key domains, the flexible adjustment of visual attributes-such as hairstyle, accessories, and subtle facial features is essential for aligning with user preferences, reflecting diverse brand identities, and adapting to varying contextual demands. In this paper, we present FaceEditTalker, a unified framework that enables controllable facial attribute manipulation while generating high-quality, audio-synchronized talking head videos. Our method consists of two key components: an image feature space editing module, which extracts semantic and detail features and allows flexible control over attributes like expression, hairstyle, and accessories; and an audio-driven video generation module, which fuses these edited features with audio-guided facial landmarks to drive a diffusion-based generator. This design ensures temporal coherence, visual fidelity, and identity preservation across frames. Extensive experiments on public datasets demonstrate that our method outperforms state-of-the-art approaches in lip-sync accuracy, video quality, and attribute controllability. Project page: https://peterfanfan.github.io/FaceEditTalker/
- Abstract(参考訳): 近年の音声駆動音声ヘッド生成は, 唇の同期や感情表現において顕著な成果を上げている。
しかし、顔属性編集の重要課題を概ね見落としている。
この能力は、ユーザー向けにカスタマイズされたデジタルアバター、オンライン教育コンテンツ、ブランド固有のデジタルカスタマーサービスなど、深いパーソナライゼーションを達成するために不可欠である。
これらの重要な領域において、髪型、アクセサリー、微妙な顔の特徴などの視覚的属性の柔軟な調整は、ユーザの好みと整合し、多様なブランドのアイデンティティを反映し、さまざまなコンテキスト要求に適応するために不可欠である。
本稿では、高品質な音声同期音声ヘッドビデオを生成しながら、制御可能な顔属性操作を可能にする統合フレームワークFaceEditTalkerを提案する。
画像特徴空間編集モジュールは意味的特徴と詳細特徴を抽出し,表現やヘアスタイル,アクセサリなどの属性を柔軟に制御できる。
この設計により、フレーム間の時間的コヒーレンス、視覚的忠実度、アイデンティティ保存が保証される。
提案手法は, リップ同期精度, 映像品質, 属性制御性において, 最先端の手法よりも優れていることを示す。
プロジェクトページ: https://peterfan.github.io/FaceEditTalker/
関連論文リスト
- RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。