Fugu-MT 論文翻訳(概要): Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation

論文の概要: Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation

arxiv url: http://arxiv.org/abs/2309.04946v2
Date: Thu, 12 Oct 2023 15:04:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 03:10:43.343993
Title: Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation
Title（参考訳）: 音声駆動対話ヘッド生成のための効率的な感情適応
Authors: Yuan Gan, Zongxin Yang, Xihang Yue, Lingyun Sun, Yi Yang
Abstract要約: 音声駆動型トーキングヘッド(EAT)のための感情適応法を提案する。 EATは感情に依存しない会話ヘッドモデルを感情制御可能なモデルに変換する。提案手法は,広く使用されているベンチマークの最先端性能を実現する。
参考スコア（独自算出の注目度）: 40.77476082734363
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-driven talking-head synthesis is a popular research topic for virtual human-related applications. However, the inflexibility and inefficiency of existing methods, which necessitate expensive end-to-end training to transfer emotions from guidance videos to talking-head predictions, are significant limitations. In this work, we propose the Emotional Adaptation for Audio-driven Talking-head (EAT) method, which transforms emotion-agnostic talking-head models into emotion-controllable ones in a cost-effective and efficient manner through parameter-efficient adaptations. Our approach utilizes a pretrained emotion-agnostic talking-head transformer and introduces three lightweight adaptations (the Deep Emotional Prompts, Emotional Deformation Network, and Emotional Adaptation Module) from different perspectives to enable precise and realistic emotion controls. Our experiments demonstrate that our approach achieves state-of-the-art performance on widely-used benchmarks, including LRW and MEAD. Additionally, our parameter-efficient adaptations exhibit remarkable generalization ability, even in scenarios where emotional training videos are scarce or nonexistent. Project website: https://yuangan.github.io/eat/
Abstract（参考訳）: 音声駆動対話頭合成は、仮想人間関連アプリケーションにおいて一般的な研究テーマである。しかし、ガイダンスビデオから話頭予測への感情伝達に高価なエンドツーエンドトレーニングを必要とする既存の手法の柔軟性と非効率性は、重大な制限である。本研究では,感情に依存しないトーキングヘッドモデルを,パラメータ効率のよい適応により,コスト効率よく感情制御可能なものに変換する音声駆動トーキングヘッド(EAT)手法を提案する。本手法は,事前学習された感情非依存型音声ヘッドトランスフォーマを使用して,異なる視点から3つの軽量適応(深い感情プロンプト,感情変形ネットワーク,感情適応モジュール)を導入することで,正確かつ現実的な感情制御を実現する。本研究では, LRW や MEAD など, 広く使用されているベンチマークにおいて, 最新の性能を実現する方法を示す。さらに,感情訓練ビデオが乏しい場合や,存在しない場合においても,パラメータ効率の適応は顕著な一般化能力を示す。プロジェクトウェブサイト: https://yuangan.github.io/eat/

関連論文リスト

EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。 iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文参考訳（メタデータ） (2025-03-14T02:54:22Z)
EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文参考訳（メタデータ） (2024-11-04T21:33:56Z)
Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
本稿では,高精度な感情表現による高忠実・音声駆動型映像像の合成システムを提案する。本研究では,無声音声入力に応答して自然なアイドル状態(非話者)ビデオを生成するポーズサンプリング手法を提案する。
論文参考訳（メタデータ） (2024-10-07T08:23:05Z)
EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion [5.954758598327494]
EMOdiffhead(エモディフヘッド)は、感情的なトーキングヘッドビデオ生成のための新しい方法である。感情のカテゴリや強度のきめ細かい制御を可能にする。他の感情像アニメーション法と比較して、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-09-11T13:23:22Z)
Dual-path Collaborative Generation Network for Emotional Video Captioning [33.230028098522254]
感情的ビデオキャプション(Emotional Video Captioning)は、ビデオで表現される本質的な感情で事実的コンテンツを記述することを目的とした、新たなタスクである。既存の感情的ビデオキャプション手法は、最初は世界的視覚的感情的手がかりを認識し、ビデオ機能と組み合わせて感情的キャプション生成を導く。本稿では、感情的なキャプションを生成しながら、動的に視覚的な感情的手がかりを知覚するデュアルパス協調生成ネットワークを提案する。
論文参考訳（メタデータ） (2024-08-06T07:30:53Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文参考訳（メタデータ） (2023-05-23T08:52:00Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)
Emotion-aware Chat Machine: Automatic Emotional Response Generation for Human-like Emotional Interaction [55.47134146639492]
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。実世界のデータを用いた実験により,提案手法は,コンテンツコヒーレンスと感情の適切性の両方の観点から,最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2021-06-06T06:26:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。