Fugu-MT 論文翻訳(概要): Memories are One-to-Many Mapping Alleviators in Talking Face Generation

論文の概要: Memories are One-to-Many Mapping Alleviators in Talking Face Generation

arxiv url: http://arxiv.org/abs/2212.05005v4
Date: Thu, 05 Dec 2024 10:52:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.373569
Title: Memories are One-to-Many Mapping Alleviators in Talking Face Generation
Title（参考訳）: 顔生成における一対多対応の記憶
Authors: Anni Tang, Tianyu He, Xu Tan, Jun Ling, Li Song,
Abstract要約: 対話型顔生成は、入力音声によって駆動される対象者の写実的映像像を生成することを目的としている。本稿では,失われた情報を暗黙記憶と明示記憶で補完するMemFaceを提案する。実験結果から,提案したMemFaceは,複数のシナリオにまたがる最先端のすべての結果を上回っていることがわかった。
参考スコア（独自算出の注目度）: 29.410468838975106
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Talking face generation aims at generating photo-realistic video portraits of a target person driven by input audio. Due to its nature of one-to-many mapping from the input audio to the output video (e.g., one speech content may have multiple feasible visual appearances), learning a deterministic mapping like previous works brings ambiguity during training, and thus causes inferior visual results. Although this one-to-many mapping could be alleviated in part by a two-stage framework (i.e., an audio-to-expression model followed by a neural-rendering model), it is still insufficient since the prediction is produced without enough information (e.g., emotions, wrinkles, etc.). In this paper, we propose MemFace to complement the missing information with an implicit memory and an explicit memory that follow the sense of the two stages respectively. More specifically, the implicit memory is employed in the audio-to-expression model to capture high-level semantics in the audio-expression shared space, while the explicit memory is employed in the neural-rendering model to help synthesize pixel-level details. Our experimental results show that our proposed MemFace surpasses all the state-of-the-art results across multiple scenarios consistently and significantly.
Abstract（参考訳）: 対話型顔生成は、入力音声によって駆動される対象者の写実的映像像を生成することを目的としている。入力音声から出力映像への一対多マッピング(例えば、1つの音声コンテンツは複数の実現可能な視覚的外観を持つ)の性質から、以前の作品のような決定論的マッピングを学習することは、トレーニング中に曖昧さをもたらし、結果として視覚結果が劣る。この一対多マッピングは、部分的には2段階のフレームワーク(すなわち、音声対表現モデルとニューラルレンダリングモデル)によって緩和されるが、予測は十分な情報(感情、しわなど)が得られないので、依然として不十分である。本稿では,2つの段階の感覚に従う暗黙記憶と明示記憶とで,不足情報を補完するMemFaceを提案する。より具体的には、暗黙記憶は音声圧縮共有空間の高レベルなセマンティクスをキャプチャするために音声圧縮モデルに使用され、一方、明示記憶はニューラルレンダリングモデルに使われ、ピクセルレベルの詳細を合成するのに役立つ。実験結果から,提案したMemFaceは,複数のシナリオにまたがる最先端のすべての結果を上回っていることがわかった。

関連論文リスト

Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文参考訳（メタデータ） (2025-03-19T18:40:45Z)
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。 MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文参考訳（メタデータ） (2024-12-05T18:57:26Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained 3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文参考訳（メタデータ） (2023-12-12T16:00:55Z)
Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文参考訳（メタデータ） (2023-09-09T14:52:39Z)
Identity-Preserving Talking Face Generation with Landmark and Appearance Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文参考訳（メタデータ） (2023-05-15T01:31:32Z)
Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from Videos [32.48058491211032]
本稿では,3次元の表情を視覚的に認識する最初の方法を提案する。我々は,3次元再構成音声頭部からの知覚がオリジナルの映像と類似するように適合過程を導出する「可読性」損失を提案する。
論文参考訳（メタデータ） (2022-07-22T14:07:46Z)
Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。この課題は主に、異なる視覚特性を音声信号から切り離すことである。そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文参考訳（メタデータ） (2021-07-10T10:27:26Z)
Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。我々は1枚の写真のみを識別基準として生の顔画像を操作する。私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文参考訳（メタデータ） (2021-04-22T15:10:26Z)
Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文参考訳（メタデータ） (2021-03-29T09:09:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。