Fugu-MT 論文翻訳(概要): Emotional Face-to-Speech

論文の概要: Emotional Face-to-Speech

arxiv url: http://arxiv.org/abs/2502.01046v1
Date: Mon, 03 Feb 2025 04:48:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:54.378987
Title: Emotional Face-to-Speech
Title（参考訳）: Emotional Face-to-Speech
Authors: Jiaxin Ye, Boyuan Cao, Hongming Shan,
Abstract要約: 既存の音声合成手法は、アイデンティティの特徴を捉える上で大きな可能性を秘めているが、感情表現を伴う多様な声のスタイルを生成するのに苦労している。 DemoFaceは、離散拡散変換器(DiT)とカリキュラム学習を利用する新しい生成フレームワークである。本研究では,多様な条件付きシナリオに対処し,多条件生成と複雑な属性の解離を効果的に行うための予測自由誘導法を開発した。
参考スコア（独自算出の注目度）: 13.725558939494407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How much can we infer about an emotional voice solely from an expressive face? This intriguing question holds great potential for applications such as virtual character dubbing and aiding individuals with expressive language disorders. Existing face-to-speech methods offer great promise in capturing identity characteristics but struggle to generate diverse vocal styles with emotional expression. In this paper, we explore a new task, termed emotional face-to-speech, aiming to synthesize emotional speech directly from expressive facial cues. To that end, we introduce DEmoFace, a novel generative framework that leverages a discrete diffusion transformer (DiT) with curriculum learning, built upon a multi-level neural audio codec. Specifically, we propose multimodal DiT blocks to dynamically align text and speech while tailoring vocal styles based on facial emotion and identity. To enhance training efficiency and generation quality, we further introduce a coarse-to-fine curriculum learning algorithm for multi-level token processing. In addition, we develop an enhanced predictor-free guidance to handle diverse conditioning scenarios, enabling multi-conditional generation and disentangling complex attributes effectively. Extensive experimental results demonstrate that DEmoFace generates more natural and consistent speech compared to baselines, even surpassing speech-driven methods. Demos are shown at https://demoface-ai.github.io/.
Abstract（参考訳）: 表情のみから感情的な声を推測できるのか? この興味深い疑問は、バーチャルキャラクタダビングや表現型言語障害の個人支援といった応用に大きな可能性を秘めている。既存の音声合成手法は、アイデンティティの特徴を捉える上で大きな可能性を秘めているが、感情表現を伴う多様な声のスタイルを生成するのに苦労している。本稿では,表情の表情から感情音声を直接合成することを目的とした,感情的対人音声と呼ばれる新しい課題について検討する。そこで我々は,多レベルニューラルオーディオコーデック上に構築された,離散拡散変換器(DiT)とカリキュラム学習を利用する新しい生成フレームワークであるDemoFaceを紹介する。具体的には、顔の感情とアイデンティティに基づいて音声スタイルを調整しながら、テキストと音声を動的にアライメントするマルチモーダルなDiTブロックを提案する。トレーニング効率と生成品質を向上させるため,マルチレベルトークン処理のための粗大なカリキュラム学習アルゴリズムを導入する。さらに,マルチ条件生成と複雑な属性の解離を効果的に実現し,多様な条件付きシナリオを扱うための拡張型予測器フリーガイダンスを開発した。大規模な実験結果から、DemoFaceはベースラインよりも自然で一貫した音声を生成する。デモはhttps://demoface-ai.github.io/.com/で公開されている。

関連論文リスト

EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かい自然言語の感情制御を可能にする、感情制御可能な新しいTSモデルである。 EmoVoice-DBは、表現力のある音声と自然言語記述によるきめ細かい感情ラベルを特徴とする、高品質な40時間感情データセットである。
論文参考訳（メタデータ） (2025-04-17T11:50:04Z)
Shushing! Let's Imagine an Authentic Speech from the Silent Video [15.426152742881365]
視覚誘導音声生成は、聴覚信号に頼ることなく、顔の外観や唇の動きから真の音声を生成することを目的としている。近年の進歩にもかかわらず、既存の手法は視覚的手がかりから意味論、音色、感情的な韻律を横断的に統一するのに苦労している。 ImaginTalkは、視覚入力のみを用いて忠実な音声を生成する新しいクロスモーダル拡散フレームワークである。
論文参考訳（メタデータ） (2025-03-19T06:28:17Z)
EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。 iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文参考訳（メタデータ） (2025-03-14T02:54:22Z)
FaceSpeak: Expressive and High-Quality Speech Synthesis from Human Portraits of Different Styles [29.185409608539747]
視覚駆動型テキスト音声(TTS)学者は、実際の顔について調査を行った。そこで我々は,多様なイメージスタイルから有能なアイデンティティ特性と感情表現を抽出する,新しいFaceSpeakアプローチを提案する。余分な情報を緩和し、結果として文字のペルソナと密接に一致した音声が合成される。
論文参考訳（メタデータ） (2025-01-02T02:00:15Z)
DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation [14.07086606183356]
音声駆動の3D顔アニメーションは、幅広い応用によって多くの注目を集めている。現在の方法では、音声を通して伝達されるニュアンスな感情のアンダートーンを捉えることができず、単調な顔の動きを生成する。音声入力から直接多様で感情的に豊かな表情を生成する新しいアプローチであるDEEPTalkを紹介する。
論文参考訳（メタデータ） (2024-08-12T08:56:49Z)
ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文参考訳（メタデータ） (2023-05-23T08:52:00Z)
High-fidelity Generalized Emotional Talking Face Generation with Multi-modal Emotion Space Learning [43.09015109281053]
よりフレキシブルで汎用的な顔生成フレームワークを提案する。具体的には、テキストプロンプトで感情スタイルを補完し、テキスト、画像、音声の感情のモダリティを統一された空間に埋め込むためにアラインド・マルチモーダル・感情エンコーダを使用する。感情条件と音声シーケンスを構造表現に接続する感情認識型オーディオ-to-3DMM変換器を提案する。
論文参考訳（メタデータ） (2023-05-04T05:59:34Z)
Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。モデルが任意のアイデンティティ、感情、言語に適応できることを示します。提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文参考訳（メタデータ） (2023-03-21T02:33:27Z)
Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。この課題は主に、異なる視覚特性を音声信号から切り離すことである。そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文参考訳（メタデータ） (2021-07-10T10:27:26Z)
EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文参考訳（メタデータ） (2021-06-17T08:34:21Z)
Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文参考訳（メタデータ） (2021-03-31T04:56:14Z)
Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-28T07:16:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。