Fugu-MT 論文翻訳(概要): Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks

論文の概要: Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks

arxiv url: http://arxiv.org/abs/2306.03594v1
Date: Tue, 6 Jun 2023 11:31:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 15:56:18.852947
Title: Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks
Title（参考訳）: 記憶共有と注意喚起ネットワークに基づく感情対話ヘッド生成
Authors: Jianrong Wang, Yaxin Zhao, Li Liu, Tianyi Xu, Qi Li, Sen Li
Abstract要約: メモリ共有感情特徴抽出器と,U-netに基づくアテンション拡張トランスレータで構成される対話型ヘッド生成モデルを提案する。 MSEFは、より正確な感情的な顔のランドマークを推定するために、音声から暗黙の感情的な補助的特徴を抽出することができる。 AATUは、推定されたランドマークと写真リアルなビデオフレームの間のトランスレータとして機能する。
参考スコア（独自算出の注目度）: 21.864200803678003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given an audio clip and a reference face image, the goal of the talking head generation is to generate a high-fidelity talking head video. Although some audio-driven methods of generating talking head videos have made some achievements in the past, most of them only focused on lip and audio synchronization and lack the ability to reproduce the facial expressions of the target person. To this end, we propose a talking head generation model consisting of a Memory-Sharing Emotion Feature extractor (MSEF) and an Attention-Augmented Translator based on U-net (AATU). Firstly, MSEF can extract implicit emotional auxiliary features from audio to estimate more accurate emotional face landmarks.~Secondly, AATU acts as a translator between the estimated landmarks and the photo-realistic video frames. Extensive qualitative and quantitative experiments have shown the superiority of the proposed method to the previous works. Codes will be made publicly available.
Abstract（参考訳）: 音声クリップと参照顔画像が与えられた場合、対話ヘッド生成の目的は高忠実な音声ヘッドビデオを生成することである。音声による頭部ビデオの生成には過去にいくつかの成果があるが、その多くは唇と音声の同期にのみ焦点を合わせ、対象者の表情を再現する能力に欠けていた。そこで本研究では,記憶共有感情特徴抽出器 (msef) と u-net (aatu) に基づく注意喚起翻訳器からなる対話ヘッド生成モデルを提案する。まず、MSEFは音声から暗黙の感情的な補助的特徴を抽出し、より正確な感情的な顔のランドマークを推定する。第2に、AATUは推定ランドマークと写真リアルなビデオフレームの間の翻訳を行う。大規模定性的および定量的実験により,提案手法の先行研究に対する優位性が示された。コードは公開される予定だ。

関連論文リスト

EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。これらの問題に対処するためのEmotiveTalkフレームワークを提案する。実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文参考訳（メタデータ） (2024-11-23T04:38:51Z)
Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文参考訳（メタデータ） (2024-10-07T08:23:05Z)
JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文参考訳（メタデータ） (2024-09-18T17:18:13Z)
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文参考訳（メタデータ） (2023-12-21T05:03:18Z)
MFR-Net: Multi-faceted Responsive Listening Head Generation via Denoising Diffusion Model [14.220727407255966]
応答型リスニングヘッド生成は,対面コミュニケーションのシナリオをモデル化することを目的とした重要な課題である。我々は,textbfMulti-textbfFaceted textbfResponsive Listening Head Generation Network (MFR-Net)を提案する。
論文参考訳（メタデータ） (2023-08-31T11:10:28Z)
Identity-Preserving Talking Face Generation with Landmark and Appearance Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文参考訳（メタデータ） (2023-05-15T01:31:32Z)
Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文参考訳（メタデータ） (2021-12-27T07:18:50Z)
Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。この課題は主に、異なる視覚特性を音声信号から切り離すことである。そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文参考訳（メタデータ） (2021-07-10T10:27:26Z)
Audio-driven Talking Face Video Generation with Learning-based Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文参考訳（メタデータ） (2020-02-24T10:02:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。