論文の概要: That's What I Said: Fully-Controllable Talking Face Generation
- arxiv url: http://arxiv.org/abs/2304.03275v2
- Date: Mon, 18 Sep 2023 12:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:19:33.346578
- Title: That's What I Said: Fully-Controllable Talking Face Generation
- Title(参考訳): これが私が言ったこと:完全に調整可能な顔生成システム
- Authors: Youngjoon Jang, Kyeongha Rho, Jong-Bin Woo, Hyeongkeun Lee, Jihwan
Park, Youshin Lim, Byeong-Yeol Kim, Joon Son Chung
- Abstract要約: 各顔が同じ動きパターンを持つが、異なる同一性を持つ正準空間を提案する。
2つ目は、アイデンティティ情報を排除しながら、動きに関連する特徴のみを表現するマルチモーダルモーション空間をナビゲートすることである。
提案手法では, 顔の属性を完全に制御し, 正確な唇のシンクロ化を行うことができる。
- 参考スコア(独自算出の注目度): 16.570649208028343
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The goal of this paper is to synthesise talking faces with controllable
facial motions. To achieve this goal, we propose two key ideas. The first is to
establish a canonical space where every face has the same motion patterns but
different identities. The second is to navigate a multimodal motion space that
only represents motion-related features while eliminating identity information.
To disentangle identity and motion, we introduce an orthogonality constraint
between the two different latent spaces. From this, our method can generate
natural-looking talking faces with fully controllable facial attributes and
accurate lip synchronisation. Extensive experiments demonstrate that our method
achieves state-of-the-art results in terms of both visual quality and lip-sync
score. To the best of our knowledge, we are the first to develop a talking face
generation framework that can accurately manifest full target facial motions
including lip, head pose, and eye movements in the generated video without any
additional supervision beyond RGB video with audio.
- Abstract(参考訳): 本研究の目的は, 顔の動きを制御可能な発話表情を合成することである。
この目標を達成するために、我々は2つの重要なアイデアを提案する。
1つ目は、すべての顔が同じ動きパターンを持つが異なる同一性を持つ標準空間を確立することである。
2つ目は、アイデンティティ情報を排除しながら、動きに関連する特徴のみを表現するマルチモーダルモーション空間をナビゲートすることである。
同一性と運動を両立させるため、2つの異なる潜在空間間の直交制約を導入する。
そこで本手法では, 顔の属性を完全に制御し, 正確な唇の同期を行うことができる。
広汎な実験により,視覚的品質とリップシンクスコアの両面から最先端の結果が得られた。
我々の知る限りでは、音声付きRGBビデオ以外の追加の監督なしに、唇、頭ポーズ、眼球運動を含む完全な顔の動きを正確に表現できる話し顔生成フレームワークを最初に開発した。
関連論文リスト
- FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces
from Disentangled Audio [47.070848508118836]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Media2Face: Co-speech Facial Animation Generation With Multi-Modality
Guidance [41.692420421029695]
本稿では,顔の形状と画像を高一般化された表現潜在空間にマッピングする,効率的な変分自動エンコーダを提案する。
次に、GNPFAを用いて、多数のビデオから高品質な表現と正確な頭部ポーズを抽出する。
GNPFAラテント空間における拡散モデルMedia2Faceを提案する。
論文 参考訳(メタデータ) (2024-01-28T16:17:59Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Identity-Preserving Realistic Talking Face Generation [4.848016645393023]
音声から現実的な顔のアニメーションを識別する手法を提案する。
教師なし学習を用いて顔のランドマークに点眼する。
また、LSGANを用いて、人物特有の顔のランドマークから顔のテクスチャを生成する。
論文 参考訳(メタデータ) (2020-05-25T18:08:28Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。