論文の概要: Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework
- arxiv url: http://arxiv.org/abs/2511.08613v1
- Date: Thu, 13 Nov 2025 01:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.142567
- Title: Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework
- Title(参考訳): 顔生成におけるアイデンティティ漏洩の評価:メトリクスと評価フレームワーク
- Authors: Dogucan Yaman, Fevziye Irem Eyiokur, Hazım Kemal Ekenel, Alexander Waibel,
- Abstract要約: 塗り絵ベースの話し顔生成は、唇の動きだけを変更しながらポーズ、照明、ジェスチャーなどの映像の詳細を保存することを目的としている。
この機構は、生成した唇が、駆動オーディオのみの影響ではなく、参照画像の影響を受けるリップリークを導入することができる。
そこで本研究では,唇の漏れを分析し定量化するためのシステム評価手法を提案する。
- 参考スコア(独自算出の注目度): 56.30142869506262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inpainting-based talking face generation aims to preserve video details such as pose, lighting, and gestures while modifying only lip motion, often using an identity reference image to maintain speaker consistency. However, this mechanism can introduce lip leaking, where generated lips are influenced by the reference image rather than solely by the driving audio. Such leakage is difficult to detect with standard metrics and conventional test setup. To address this, we propose a systematic evaluation methodology to analyze and quantify lip leakage. Our framework employs three complementary test setups: silent-input generation, mismatched audio-video pairing, and matched audio-video synthesis. We also introduce derived metrics including lip-sync discrepancy and silent-audio-based lip-sync scores. In addition, we study how different identity reference selections affect leakage, providing insights into reference design. The proposed methodology is model-agnostic and establishes a more reliable benchmark for future research in talking face generation.
- Abstract(参考訳): 絵画ベースの話し顔生成は、ポーズ、照明、ジェスチャーなどのビデオの詳細を保存しつつ、唇の動きだけを修正することを目的としており、しばしば話者の一貫性を維持するためにアイデンティティ参照画像を使用する。
しかし、この機構は、駆動オーディオのみによるのではなく、参照画像によって生成された唇が影響されるリップリークを導入することができる。
このようなリークは、標準的なメトリクスと従来のテスト設定で検出するのは難しい。
そこで本研究では,唇の漏れを分析し定量化するためのシステム評価手法を提案する。
本フレームワークでは、サイレント・インプット・ジェネレーション、ミスマッチしたオーディオ・ビデオ・ペアリング、マッチしたオーディオ・ビデオ合成という3つの相補的なテスト・セットアップを採用している。
また,リップシンク差やサイレントオーディオに基づくリップシンクスコアなどの指標も導入した。
さらに、異なるID参照選択がリークに与える影響について検討し、参照設計に関する洞察を提供する。
提案手法はモデルに依存しないものであり,話し顔生成における将来の研究のための信頼性の高いベンチマークを確立する。
関連論文リスト
- Identity-Preserving Video Dubbing Using Motion Warping [26.10803670509977]
ビデオダビングは、レファレンスビデオと駆動オーディオ信号からリアルでリップシンクされたビデオを合成することを目的としている。
本稿では,ビデオダビングのためのIPTalkerを提案する。
IPTalkerは、リアリズム、リップ同期、アイデンティティ保持の観点から、既存のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-08T16:06:21Z) - Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。
3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文 参考訳(メタデータ) (2024-05-07T13:55:50Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via
Audio-Lip Memory [27.255990661166614]
音声から顔を生成することの課題は、口領域が入力された音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。
従来の手法では、オーディオ視覚表現学習を利用するか、ランドマークや3Dモデルのような中間構造情報を利用する。
本稿では,入力音声に対応する口領域の視覚情報を提供し,きめ細かな視覚的コヒーレンスを実現するオーディオ-リップメモリを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:17:49Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。