論文の概要: Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2412.06602v2
- Date: Thu, 27 Mar 2025 03:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:50:25.383467
- Title: Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルにおける制御可能な音声合成に向けて:調査
- Authors: Tianxin Xie, Yan Rong, Pengfei Zhang, Wenwu Wang, Li Liu,
- Abstract要約: Text-to-speech (TTS)は、テキストから自然な人間の音声を生成することを目的としている。
TTS技術は、制御可能な音声生成を可能にするために、人間のような音声を超えて進化してきた。
拡散や大言語モデルといったディープラーニングは、制御可能なTSを大幅に強化した。
- 参考スコア(独自算出の注目度): 14.461679448919751
- License:
- Abstract: Text-to-speech (TTS), also known as speech synthesis, is a prominent research area that aims to generate natural-sounding human speech from text. Recently, with the increasing industrial demand, TTS technologies have evolved beyond synthesizing human-like speech to enabling controllable speech generation. This includes fine-grained control over various attributes of synthesized speech such as emotion, prosody, timbre, and duration. In addition, advancements in deep learning, such as diffusion and large language models, have significantly enhanced controllable TTS over the past several years. In this work, we conduct a comprehensive survey of controllable TTS, covering approaches ranging from basic control techniques to methods utilizing natural language prompts, aiming to provide a clear understanding of the current state of research. We examine the general controllable TTS pipeline, challenges, model architectures, and control strategies, offering a comprehensive and clear taxonomy of existing methods. Additionally, we provide a detailed summary of datasets and evaluation metrics and shed some light on the applications and future directions of controllable TTS. To the best of our knowledge, this survey paper provides the first comprehensive review of emerging controllable TTS methods, which can serve as a beneficial resource for both academic researchers and industrial practitioners.
- Abstract(参考訳): テキスト音声合成(英語: Text-to-Speech、TTS)は、テキストから自然に聞こえる人間の音声を生成することを目的とした、顕著な研究分野である。
近年,産業需要の増大に伴い,TS技術は人間のような音声の合成を超えて,制御可能な音声生成を実現している。
これには、感情、韻律、音色、持続時間などの合成音声の様々な属性のきめ細かい制御が含まれる。
さらに,拡散モデルや大規模言語モデルなどのディープラーニングの進歩により,ここ数年で制御可能なTSが大幅に向上した。
本研究では,制御可能なTTSの総合的な調査を行い,基本制御技術から自然言語のプロンプトを利用した手法まで,研究の現状を明確に把握することを目的としている。
本稿では,一般的な制御可能なTSパイプライン,課題,モデルアーキテクチャ,コントロール戦略について検討し,既存の手法の包括的で明確な分類法を提供する。
さらに、データセットと評価指標の詳細な概要を提供し、制御可能なTSの応用と今後の方向性について光を当てる。
我々の知る限り、本調査は、新しい制御可能なTS手法の総合的なレビューを初めて提供し、学術研究者と産業従事者の両方にとって有益な情報源となる。
関連論文リスト
- Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - A Survey of Text Style Transfer: Applications and Ethical Implications [4.749824105387292]
テキストスタイル転送(TST)は、テキストのスタイルに依存しない内容を変更することなく、丁寧さ、形式性、感情など、言語使用の選択された属性を制御することを目的としている。
本稿では,従来の言語アプローチと近年のディープラーニング手法の両方を用いて,長年にわたって研究されてきたTST応用の総合的なレビューを行う。
論文 参考訳(メタデータ) (2024-07-23T17:15:23Z) - Text to speech synthesis [0.27195102129095]
テキスト音声合成(TTS)は、テキストを音声に変換する技術である。
この抽象概念は、TS合成の重要な側面を探求し、その基礎技術、応用、および様々な分野における意味を包含する。
論文 参考訳(メタデータ) (2024-01-25T02:13:45Z) - A review-based study on different Text-to-Speech technologies [0.0]
本稿では, 共役TS, ホルマント合成TS, 統計パラメトリックTSなど, 利用可能なTS技術について検討する。
この研究は、これらの技術の利点と限界を、音声の自然性、システムの複雑さのレベル、異なるアプリケーションに適合する可能性の観点から比較することに焦点を当てている。
論文 参考訳(メタデータ) (2023-12-17T20:07:23Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。
我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。
我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-29T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。