論文の概要: Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2412.06602v2
- Date: Thu, 27 Mar 2025 03:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 14:27:25.965639
- Title: Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルにおける制御可能な音声合成に向けて:調査
- Authors: Tianxin Xie, Yan Rong, Pengfei Zhang, Wenwu Wang, Li Liu,
- Abstract要約: Text-to-speech (TTS)は、テキストから自然な人間の音声を生成することを目的としている。
TTS技術は、制御可能な音声生成を可能にするために、人間のような音声を超えて進化してきた。
拡散や大言語モデルといったディープラーニングは、制御可能なTSを大幅に強化した。
- 参考スコア(独自算出の注目度): 14.461679448919751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-speech (TTS), also known as speech synthesis, is a prominent research area that aims to generate natural-sounding human speech from text. Recently, with the increasing industrial demand, TTS technologies have evolved beyond synthesizing human-like speech to enabling controllable speech generation. This includes fine-grained control over various attributes of synthesized speech such as emotion, prosody, timbre, and duration. In addition, advancements in deep learning, such as diffusion and large language models, have significantly enhanced controllable TTS over the past several years. In this work, we conduct a comprehensive survey of controllable TTS, covering approaches ranging from basic control techniques to methods utilizing natural language prompts, aiming to provide a clear understanding of the current state of research. We examine the general controllable TTS pipeline, challenges, model architectures, and control strategies, offering a comprehensive and clear taxonomy of existing methods. Additionally, we provide a detailed summary of datasets and evaluation metrics and shed some light on the applications and future directions of controllable TTS. To the best of our knowledge, this survey paper provides the first comprehensive review of emerging controllable TTS methods, which can serve as a beneficial resource for both academic researchers and industrial practitioners.
- Abstract(参考訳): テキスト音声合成(英語: Text-to-Speech、TTS)は、テキストから自然に聞こえる人間の音声を生成することを目的とした、顕著な研究分野である。
近年,産業需要の増大に伴い,TS技術は人間のような音声の合成を超えて,制御可能な音声生成を実現している。
これには、感情、韻律、音色、持続時間などの合成音声の様々な属性のきめ細かい制御が含まれる。
さらに,拡散モデルや大規模言語モデルなどのディープラーニングの進歩により,ここ数年で制御可能なTSが大幅に向上した。
本研究では,制御可能なTTSの総合的な調査を行い,基本制御技術から自然言語のプロンプトを利用した手法まで,研究の現状を明確に把握することを目的としている。
本稿では,一般的な制御可能なTSパイプライン,課題,モデルアーキテクチャ,コントロール戦略について検討し,既存の手法の包括的で明確な分類法を提供する。
さらに、データセットと評価指標の詳細な概要を提供し、制御可能なTSの応用と今後の方向性について光を当てる。
我々の知る限り、本調査は、新しい制御可能なTS手法の総合的なレビューを初めて提供し、学術研究者と産業従事者の両方にとって有益な情報源となる。
関連論文リスト
- Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis [5.283520143851873]
本稿では,データ最適化フレームワークと高度な音響モデルを統合し,高品質なTTSシステムを構築する手法を提案する。
本稿では,タイ語を実例として,複雑な音声規則とスパースリソースを効果的に扱う手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-04-10T15:32:57Z) - Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - A Survey of Text Style Transfer: Applications and Ethical Implications [4.749824105387292]
テキストスタイル転送(TST)は、テキストのスタイルに依存しない内容を変更することなく、丁寧さ、形式性、感情など、言語使用の選択された属性を制御することを目的としている。
本稿では,従来の言語アプローチと近年のディープラーニング手法の両方を用いて,長年にわたって研究されてきたTST応用の総合的なレビューを行う。
論文 参考訳(メタデータ) (2024-07-23T17:15:23Z) - Text to speech synthesis [0.27195102129095]
テキスト音声合成(TTS)は、テキストを音声に変換する技術である。
この抽象概念は、TS合成の重要な側面を探求し、その基礎技術、応用、および様々な分野における意味を包含する。
論文 参考訳(メタデータ) (2024-01-25T02:13:45Z) - A review-based study on different Text-to-Speech technologies [0.0]
本稿では, 共役TS, ホルマント合成TS, 統計パラメトリックTSなど, 利用可能なTS技術について検討する。
この研究は、これらの技術の利点と限界を、音声の自然性、システムの複雑さのレベル、異なるアプリケーションに適合する可能性の観点から比較することに焦点を当てている。
論文 参考訳(メタデータ) (2023-12-17T20:07:23Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。
我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。
我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-29T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。