論文の概要: Emotional Conversation: Empowering Talking Faces with Cohesive Expression, Gaze and Pose Generation
- arxiv url: http://arxiv.org/abs/2406.07895v1
- Date: Wed, 12 Jun 2024 06:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:15:17.152025
- Title: Emotional Conversation: Empowering Talking Faces with Cohesive Expression, Gaze and Pose Generation
- Title(参考訳): 感情会話: 結束表現, 迷路, 詩生成による話し言葉の活用
- Authors: Jiadong Liang, Feng Lu,
- Abstract要約: 3次元顔のランドマークを中間変数として用いた2段階の音声駆動音声顔生成フレームワークを提案する。
このフレームワークは、自己指導型学習を通じて、表現、視線、感情との協調的なアライメントを実現する。
我々のモデルは、視覚的品質と感情的アライメントの両方において、最先端のパフォーマンスを著しく向上させる。
- 参考スコア(独自算出の注目度): 12.044308738509402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vivid talking face generation holds immense potential applications across diverse multimedia domains, such as film and game production. While existing methods accurately synchronize lip movements with input audio, they typically ignore crucial alignments between emotion and facial cues, which include expression, gaze, and head pose. These alignments are indispensable for synthesizing realistic videos. To address these issues, we propose a two-stage audio-driven talking face generation framework that employs 3D facial landmarks as intermediate variables. This framework achieves collaborative alignment of expression, gaze, and pose with emotions through self-supervised learning. Specifically, we decompose this task into two key steps, namely speech-to-landmarks synthesis and landmarks-to-face generation. The first step focuses on simultaneously synthesizing emotionally aligned facial cues, including normalized landmarks that represent expressions, gaze, and head pose. These cues are subsequently reassembled into relocated facial landmarks. In the second step, these relocated landmarks are mapped to latent key points using self-supervised learning and then input into a pretrained model to create high-quality face images. Extensive experiments on the MEAD dataset demonstrate that our model significantly advances the state-of-the-art performance in both visual quality and emotional alignment.
- Abstract(参考訳): バイビッド・トーキング・フェイス・ジェネレーションは、映画やゲーム制作など、様々なマルチメディア分野にまたがる潜在的な応用をもたらす。
既存の方法では、唇の動きと入力音声を正確に同期させるが、感情と顔の手がかりの間には、表情、視線、頭ポーズなどの重要な調整が無視されるのが一般的である。
これらのアライメントは、リアルなビデオを合成するのに欠かせない。
これらの課題に対処するために,3次元顔のランドマークを中間変数として用いた2段階の音声駆動音声顔生成フレームワークを提案する。
このフレームワークは、自己指導型学習を通じて、表現、視線、感情との協調的なアライメントを実現する。
具体的には,このタスクを,音声からランドマークへの合成とランドマークから顔への生成という,2つの重要なステップに分解する。
最初のステップは、表情、視線、頭ポーズを表す正規化されたランドマークを含む、感情的に整列した顔の手がかりを同時に合成することに焦点を当てる。
これらのキューはその後、移動した顔のランドマークに再組み立てされる。
2番目のステップでは、移動されたランドマークを自己教師付き学習を用いて潜在キーポイントにマッピングし、事前訓練されたモデルに入力して高品質な顔画像を生成する。
MEADデータセットの大規模な実験により、我々のモデルは視覚的品質と感情的アライメントの両方において、最先端のパフォーマンスを大幅に向上することが示された。
関連論文リスト
- CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。
主な課題は、データ制限、唇のアライメント、表情の自然さである。
本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T11:19:15Z) - AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D
Talking Face Generation [28.71632683090641]
本稿では,表情生成のための音声・視覚指導システムを提案する。
人間の音声から直接顔の動きを学習する代わりに、私たちの2段階の戦略はLLMが最初に音声情報を解釈することを含む。
この2段階のプロセスは、LLMの組み込みと組み合わせて、モデルの解釈可能性を高め、ユーザーに命令を理解する柔軟性を提供する。
論文 参考訳(メタデータ) (2024-02-25T15:51:05Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - That's What I Said: Fully-Controllable Talking Face Generation [16.570649208028343]
各顔が同じ動きパターンを持つが、異なる同一性を持つ正準空間を提案する。
2つ目は、アイデンティティ情報を排除しながら、動きに関連する特徴のみを表現するマルチモーダルモーション空間をナビゲートすることである。
提案手法では, 顔の属性を完全に制御し, 正確な唇のシンクロ化を行うことができる。
論文 参考訳(メタデータ) (2023-04-06T17:56:50Z) - Continuously Controllable Facial Expression Editing in Talking Face
Videos [34.83353695337335]
言語関連表現と感情関連表現はしばしば高結合である。
従来の画像から画像への変換手法は、我々のアプリケーションではうまく機能しない。
そこで本研究では,音声合成のための高品質な表情編集手法を提案する。
論文 参考訳(メタデータ) (2022-09-17T09:05:47Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。