論文の概要: SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing
- arxiv url: http://arxiv.org/abs/2409.03605v1
- Date: Thu, 5 Sep 2024 15:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 20:15:17.164712
- Title: SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing
- Title(参考訳): SegTalker: マスク誘導ローカル編集によるセグメンテーションに基づく音声生成
- Authors: Lingyu Xiong, Xize Cheng, Jintao Tan, Xianjia Wu, Xiandong Li, Lei Zhu, Fei Ma, Minglei Li, Huang Xu, Zhihu Hu,
- Abstract要約: 唇の動きとイメージテクスチャを分離するSegTalkerという新しいフレームワークを提案する。
我々はマスク誘導エンコーダを用いて画像の意味領域をスタイルコードに切り離す。
最終的に、以前に生成された音声セグメントとスタイルコードをマスク誘導型StyleGANに注入し、ビデオフレームを合成する。
- 参考スコア(独自算出の注目度): 19.245228801339007
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio-driven talking face generation aims to synthesize video with lip movements synchronized to input audio. However, current generative techniques face challenges in preserving intricate regional textures (skin, teeth). To address the aforementioned challenges, we propose a novel framework called SegTalker to decouple lip movements and image textures by introducing segmentation as intermediate representation. Specifically, given the mask of image employed by a parsing network, we first leverage the speech to drive the mask and generate talking segmentation. Then we disentangle semantic regions of image into style codes using a mask-guided encoder. Ultimately, we inject the previously generated talking segmentation and style codes into a mask-guided StyleGAN to synthesize video frame. In this way, most of textures are fully preserved. Moreover, our approach can inherently achieve background separation and facilitate mask-guided facial local editing. In particular, by editing the mask and swapping the region textures from a given reference image (e.g. hair, lip, eyebrows), our approach enables facial editing seamlessly when generating talking face video. Experiments demonstrate that our proposed approach can effectively preserve texture details and generate temporally consistent video while remaining competitive in lip synchronization. Quantitative and qualitative results on the HDTF and MEAD datasets illustrate the superior performance of our method over existing methods.
- Abstract(参考訳): 音声駆動音声顔生成は、入力音声に同期した唇の動きで映像を合成することを目的としている。
しかし、現在の生成技術は、複雑な局所的なテクスチャ(皮膚、歯)を保存するための課題に直面している。
以上の課題に対処するために,セグメンテーションを中間表現として導入することにより,唇の動きとイメージテクスチャを分離するSegTalkerという新しいフレームワークを提案する。
具体的には、解析ネットワークが使用する画像のマスクを考慮し、まず音声を利用してマスクを駆動し、発声セグメンテーションを生成する。
次に、マスク誘導エンコーダを用いて、画像の意味領域をスタイルコードに分解する。
最終的に、以前に生成された音声セグメントとスタイルコードをマスク誘導型StyleGANに注入し、ビデオフレームを合成する。
このように、ほとんどのテクスチャは保存されている。
さらに,本手法は背景分離を本質的に達成し,マスクガイドによる顔局所編集を容易にする。
特に、マスクを編集し、所定の基準画像(例えば、髪、唇、まぶた)から領域のテクスチャを交換することで、会話する顔ビデオを生成する際に、顔の編集をシームレスに行うことができる。
実験により,提案手法はテクスチャの詳細を効果的に保存し,時間的に一貫したビデオを生成するとともに,リップ同期の競争力を維持することができることが示された。
HDTFおよびMEADデータセットの定量的および定性的な結果から,本手法の既存手法よりも優れた性能を示す。
関連論文リスト
- JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - Text-Guided Video Masked Autoencoder [12.321239366215426]
本稿では,ペア字幕に高い対応で映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。
既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習により、純粋なMAEと比較して下流性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-01T17:58:19Z) - Lazy Diffusion Transformer for Interactive Image Editing [79.75128130739598]
部分的な画像更新を効率的に生成する新しい拡散変換器であるLazyDiffusionを導入する。
提案手法は,空白キャンバスや画像から,ユーザが局所的な画像修正のシーケンスを指定するインタラクティブな画像編集アプリケーションを対象としている。
論文 参考訳(メタデータ) (2024-04-18T17:59:27Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。