論文の概要: Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation
- arxiv url: http://arxiv.org/abs/2507.20953v1
- Date: Mon, 28 Jul 2025 16:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.195499
- Title: Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation
- Title(参考訳): 視覚的品質とアイデンティティ保護のためのマスクフリー音声駆動型音声合成
- Authors: Dogucan Yaman, Fevziye Irem Eyiokur, Leonard Bärmann, Hazım Kemal Ekenel, Alexander Waibel,
- Abstract要約: 本研究では,2Dベースの顔編集作業を維持しつつ,マスクレス音声生成手法を提案する。
入力画像を2段階のランドマークベースアプローチを用いて,口を閉じた状態に変換する。
- 参考スコア(独自算出の注目度): 54.52905471078152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Driven Talking Face Generation aims at generating realistic videos of talking faces, focusing on accurate audio-lip synchronization without deteriorating any identity-related visual details. Recent state-of-the-art methods are based on inpainting, meaning that the lower half of the input face is masked, and the model fills the masked region by generating lips aligned with the given audio. Hence, to preserve identity-related visual details from the lower half, these approaches additionally require an unmasked identity reference image randomly selected from the same video. However, this common masking strategy suffers from (1) information loss in the input faces, significantly affecting the networks' ability to preserve visual quality and identity details, (2) variation between identity reference and input image degrading reconstruction performance, and (3) the identity reference negatively impacting the model, causing unintended copying of elements unaligned with the audio. To address these issues, we propose a mask-free talking face generation approach while maintaining the 2D-based face editing task. Instead of masking the lower half, we transform the input images to have closed mouths, using a two-step landmark-based approach trained in an unpaired manner. Subsequently, we provide these edited but unmasked faces to a lip adaptation model alongside the audio to generate appropriate lip movements. Thus, our approach needs neither masked input images nor identity reference images. We conduct experiments on the benchmark LRS2 and HDTF datasets and perform various ablation studies to validate our contributions.
- Abstract(参考訳): 音声駆動トーキング・フェイスジェネレーション(Audio-Driven Talking Face Generation)は、身元に関する視覚的詳細を損なうことなく、正確な音声-リップ同期に焦点を当てて、会話のリアルなビデオを生成することを目的としている。
近年の最先端の手法は、入力面の下半分がマスキングされ、モデルは与えられたオーディオに合わせて唇を生成することでマスク領域を埋める。
したがって、下位部分からの識別関連視覚的詳細を保存するためには、同じビデオからランダムに選択された未一致の識別参照画像が必要である。
しかし、この一般的なマスキング戦略は、(1)視覚的品質とアイデンティティの詳細を保存できるネットワークの能力、(2)アイデンティティ参照と入力画像の劣化する再構成性能のばらつき、(3)モデルに悪影響を及ぼすアイデンティティ参照に大きく影響し、意図しないオーディオに整合しない要素のコピーを引き起こす。
これらの課題に対処するために,2Dベースの顔編集作業を維持しつつ,マスクレス音声生成手法を提案する。
下半身をマスクする代わりに、2段階のランドマークベースアプローチを用いて、入力画像をクローズドな口を持つように変換する。
その後、音声と共に、これらの編集された未加工の顔に唇適応モデルを提供し、適切な唇の動きを生成する。
したがって,本手法では,マスクされた入力画像やアイデンティティ参照画像は必要としない。
我々は、LSS2およびHDTFデータセットのベンチマーク実験を行い、様々なアブレーション研究を行い、コントリビューションを検証した。
関連論文リスト
- Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.608872317957026]
リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。
参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文 参考訳(メタデータ) (2025-03-09T02:36:31Z) - SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing [19.245228801339007]
唇の動きとイメージテクスチャを分離するSegTalkerという新しいフレームワークを提案する。
我々はマスク誘導エンコーダを用いて画像の意味領域をスタイルコードに切り離す。
最終的に、以前に生成された音声セグメントとスタイルコードをマスク誘導型StyleGANに注入し、ビデオフレームを合成する。
論文 参考訳(メタデータ) (2024-09-05T15:11:40Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。