論文の概要: Memories are One-to-Many Mapping Alleviators in Talking Face Generation
- arxiv url: http://arxiv.org/abs/2212.05005v3
- Date: Tue, 5 Mar 2024 07:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 04:07:55.196344
- Title: Memories are One-to-Many Mapping Alleviators in Talking Face Generation
- Title(参考訳): 顔生成における一対多対応の記憶
- Authors: Anni Tang, Tianyu He, Xu Tan, Jun Ling, Li Song
- Abstract要約: 対話型顔生成は、入力音声によって駆動される対象者の写実的映像像を生成することを目的としている。
本稿では,失われた情報を暗黙記憶と明示記憶で補完するMemFaceを提案する。
実験結果から,提案したMemFaceは,複数のシナリオにまたがる最先端のすべての結果を上回っていることがわかった。
- 参考スコア(独自算出の注目度): 31.55290250247604
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Talking face generation aims at generating photo-realistic video portraits of
a target person driven by input audio. Due to its nature of one-to-many mapping
from the input audio to the output video (e.g., one speech content may have
multiple feasible visual appearances), learning a deterministic mapping like
previous works brings ambiguity during training, and thus causes inferior
visual results. Although this one-to-many mapping could be alleviated in part
by a two-stage framework (i.e., an audio-to-expression model followed by a
neural-rendering model), it is still insufficient since the prediction is
produced without enough information (e.g., emotions, wrinkles, etc.). In this
paper, we propose MemFace to complement the missing information with an
implicit memory and an explicit memory that follow the sense of the two stages
respectively. More specifically, the implicit memory is employed in the
audio-to-expression model to capture high-level semantics in the
audio-expression shared space, while the explicit memory is employed in the
neural-rendering model to help synthesize pixel-level details. Our experimental
results show that our proposed MemFace surpasses all the state-of-the-art
results across multiple scenarios consistently and significantly.
- Abstract(参考訳): 対話顔生成は、入力音声によって駆動される対象者の写実的映像像を生成することを目的としている。
入力音声から出力映像への1対1マッピング(例えば、1つの音声コンテンツが複数の可視性を持つ)の性質から、以前の作品のように決定論的なマッピングを学ぶことはトレーニングのあいまいさをもたらし、その結果は劣る。
この1対多マッピングは、部分的には2段階のフレームワーク(すなわち、音声対表現モデルとニューラルレンダリングモデル)によって緩和されるが、十分な情報(感情、しわなど)が得られないので、まだ不十分である。
本稿では,不足している情報を暗黙記憶で補完するmemfaceと,それぞれ2段階の感覚に従う明示記憶を提案する。
より具体的には、暗黙記憶は、音声表現共有空間における高レベルセマンティクスを捉えるのに、暗黙記憶は、ピクセルレベルの詳細を合成するために、ニューラルレンダリングモデルで使用される。
実験の結果,提案するmemfaceは,複数のシナリオにまたがる最先端の成果を一貫して,かつ著しく上回ることがわかった。
関連論文リスト
- GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from
Videos [32.48058491211032]
本稿では,3次元の表情を視覚的に認識する最初の方法を提案する。
我々は,3次元再構成音声頭部からの知覚がオリジナルの映像と類似するように適合過程を導出する「可読性」損失を提案する。
論文 参考訳(メタデータ) (2022-07-22T14:07:46Z) - Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-07-10T10:27:26Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。