論文の概要: FacEDiT: Unified Talking Face Editing and Generation via Facial Motion Infilling
- arxiv url: http://arxiv.org/abs/2512.14056v1
- Date: Tue, 16 Dec 2025 03:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.575729
- Title: FacEDiT: Unified Talking Face Editing and Generation via Facial Motion Infilling
- Title(参考訳): FacEDiT: 顔の顔の編集と生成を顔認識で行う
- Authors: Kim Sung-Bin, Joohyun Chang, David Harwath, Tae-Hyun Oh,
- Abstract要約: 我々は,音声条件による動きの埋め合わせのサブタスクとして,話し顔の編集と生成に注目した。
FacEDiTは、周囲の動きや音声に合わせたマスクされた顔の動きを合成することを学ぶ。
FacEDiTは、強力なアイデンティティ保存とスムーズな視覚的連続性を備えた、正確で音声対応の顔編集を生成する。
- 参考スコア(独自算出の注目度): 47.23685762507782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking face editing and face generation have often been studied as distinct problems. In this work, we propose viewing both not as separate tasks but as subtasks of a unifying formulation, speech-conditional facial motion infilling. We explore facial motion infilling as a self-supervised pretext task that also serves as a unifying formulation of dynamic talking face synthesis. To instantiate this idea, we propose FacEDiT, a speech-conditional Diffusion Transformer trained with flow matching. Inspired by masked autoencoders, FacEDiT learns to synthesize masked facial motions conditioned on surrounding motions and speech. This formulation enables both localized generation and edits, such as substitution, insertion, and deletion, while ensuring seamless transitions with unedited regions. In addition, biased attention and temporal smoothness constraints enhance boundary continuity and lip synchronization. To address the lack of a standard editing benchmark, we introduce FacEDiTBench, the first dataset for talking face editing, featuring diverse edit types and lengths, along with new evaluation metrics. Extensive experiments validate that talking face editing and generation emerge as subtasks of speech-conditional motion infilling; FacEDiT produces accurate, speech-aligned facial edits with strong identity preservation and smooth visual continuity while generalizing effectively to talking face generation.
- Abstract(参考訳): 顔の編集と顔生成は、しばしば異なる問題として研究されてきた。
本研究では,個別のタスクではなく,統一的な定式化,音声-条件の顔の動きの埋め合わせのサブタスクとして見ることを提案する。
本稿では,動的顔合成の統一的な定式化に寄与する自己教師型プレテキストタスクとしての顔の動きの埋め込みについて検討する。
このアイデアをインスタンス化するために,フローマッチングを訓練した音声条件拡散変換器であるFacEDiTを提案する。
FacEDiTは、マスク付きオートエンコーダにインスパイアされ、周囲の動きや音声に合わせたマスク付き顔の動きを合成することを学ぶ。
この定式化は、置換、挿入、削除のような局所的な生成と編集の両方を可能にし、未編集領域とのシームレスな遷移を保証する。
さらに、偏りのある注意と時間的滑らかさの制約により、境界の連続性と唇の同期が促進される。
標準編集ベンチマークの欠如に対処するため,顔編集のための最初のデータセットであるFacEDiTBenchを導入する。
FacEDiTは、会話顔生成を効果的に一般化しつつ、強いアイデンティティ保存とスムーズな視覚的連続性を備えた、正確な、音声対応の顔編集を生成する。
関連論文リスト
- Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation [54.52905471078152]
本研究では,2Dベースの顔編集作業を維持しつつ,マスクレス音声生成手法を提案する。
入力画像を2段階のランドマークベースアプローチを用いて,口を閉じた状態に変換する。
論文 参考訳(メタデータ) (2025-07-28T16:03:36Z) - Shushing! Let's Imagine an Authentic Speech from the Silent Video [15.426152742881365]
視覚誘導音声生成は、聴覚信号に頼ることなく、顔の外観や唇の動きから真の音声を生成することを目的としている。
近年の進歩にもかかわらず、既存の手法は視覚的手がかりから意味論、音色、感情的な韻律を横断的に統一するのに苦労している。
ImaginTalkは、視覚入力のみを用いて忠実な音声を生成する新しいクロスモーダル拡散フレームワークである。
論文 参考訳(メタデータ) (2025-03-19T06:28:17Z) - JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - SPEAK: Speech-Driven Pose and Emotion-Adjustable Talking Head Generation [13.459396544300137]
本稿では,一般のトーキング・フェイス・ジェネレーションと区別する新しいワンショットトーキング・ヘッド・ジェネレーション・フレームワーク(SPEAK)を提案する。
顔の特徴を3つの潜在空間に分離するIRFD(Inter-Reconstructed Feature Disentanglement)モジュールを導入する。
次に、音声コンテンツと顔の潜時符号を1つの潜時空間に修正する顔編集モジュールを設計する。
論文 参考訳(メタデータ) (2024-05-12T11:41:44Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Continuously Controllable Facial Expression Editing in Talking Face
Videos [34.83353695337335]
言語関連表現と感情関連表現はしばしば高結合である。
従来の画像から画像への変換手法は、我々のアプリケーションではうまく機能しない。
そこで本研究では,音声合成のための高品質な表情編集手法を提案する。
論文 参考訳(メタデータ) (2022-09-17T09:05:47Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。