論文の概要: Revival with Voice: Multi-modal Controllable Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2505.18972v1
- Date: Sun, 25 May 2025 04:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.800781
- Title: Revival with Voice: Multi-modal Controllable Text-to-Speech Synthesis
- Title(参考訳): 音声によるリバイバル:マルチモーダル制御可能なテキスト音声合成
- Authors: Minsu Kim, Pingchuan Ma, Honglie Chen, Stavros Petridis, Maja Pantic,
- Abstract要約: 本稿では,顔画像から音声を生成するマルチモーダル制御可能なテキスト音声合成(TTS)について検討する。
顔駆動型TSシステムにおける以下の3つの課題を軽減することを目的としている。
顔駆動音声合成におけるモデルの有効性を実験的に検証した。
- 参考スコア(独自算出の注目度): 52.25128289155576
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper explores multi-modal controllable Text-to-Speech Synthesis (TTS) where the voice can be generated from face image, and the characteristics of output speech (e.g., pace, noise level, distance, tone, place) can be controllable with natural text description. Specifically, we aim to mitigate the following three challenges in face-driven TTS systems. 1) To overcome the limited audio quality of audio-visual speech corpora, we propose a training method that additionally utilizes high-quality audio-only speech corpora. 2) To generate voices not only from real human faces but also from artistic portraits, we propose augmenting the input face image with stylization. 3) To consider one-to-many possibilities in face-to-voice mapping and ensure consistent voice generation at the same time, we propose to first employ sampling-based decoding and then use prompting with generated speech samples. Experimental results validate the proposed model's effectiveness in face-driven voice synthesis.
- Abstract(参考訳): 本稿では,音声を顔画像から生成できるマルチモーダル制御可能なテキスト音声合成(TTS)について検討する。
具体的には、顔駆動型TSシステムにおける以下の3つの課題を軽減することを目的としている。
1)音声視覚音声コーパスの限られた品質を克服するために,高品質な音声のみのコーパスを付加的に活用する訓練手法を提案する。
2) 実際の人間の顔だけでなく芸術的肖像画からも音声を生成するために, 入力顔画像のスタイリゼーションによる増強を提案する。
3) 対面音声マッピングにおける一対多の可能性を検討するとともに、一貫した音声生成を同時に確保するために、まずサンプリングに基づく復号法を採用し、次に生成された音声サンプルを用いてプロンプトを用いることを提案する。
顔駆動音声合成におけるモデルの有効性を実験的に検証した。
関連論文リスト
- Faces that Speak: Jointly Synthesising Talking Face and Speech from Text [22.87082439322244]
本研究では,TFG (Talking Face Generation) とTTS (Text-to-Speech) システムを統合されたフレームワークに統合することで実現した。
課題は,(1)実世界のシナリオを表わす一連の頭部ポーズを生成すること,(2)同一人物の顔の動きの変化に拘わらず,声の一貫性を確保すること,である。
実験により,本手法は,入力テキストと正確に一致した自然な表情と音声を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2024-05-16T17:29:37Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Zero-shot personalized lip-to-speech synthesis with face image based
voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。
顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。