論文の概要: Towards Controllable Speech Synthesis in the Era of Large Language Models: A Systematic Survey
- arxiv url: http://arxiv.org/abs/2412.06602v3
- Date: Mon, 25 Aug 2025 07:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.426436
- Title: Towards Controllable Speech Synthesis in the Era of Large Language Models: A Systematic Survey
- Title(参考訳): 大規模言語モデルにおける制御可能な音声合成に向けて:体系的調査
- Authors: Tianxin Xie, Yan Rong, Pengfei Zhang, Wenwu Wang, Li Liu,
- Abstract要約: 制御可能なTSは急速に成長している研究領域となっている。
産業需要の増加と深層学習のブレークスルーにより、制御可能なTSは急速に成長している研究分野となっている。
我々は、モデルアーキテクチャ、制御戦略、特徴表現を分類するとともに、制御可能なTSにおける課題、データセット、評価を要約する。
- 参考スコア(独自算出の注目度): 20.850382449644055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-speech (TTS) has advanced from generating natural-sounding speech to enabling fine-grained control over attributes like emotion, timbre, and style. Driven by rising industrial demand and breakthroughs in deep learning, e.g., diffusion and large language models (LLMs), controllable TTS has become a rapidly growing research area. This survey provides the first comprehensive review of controllable TTS methods, from traditional control techniques to emerging approaches using natural language prompts. We categorize model architectures, control strategies, and feature representations, while also summarizing challenges, datasets, and evaluations in controllable TTS. This survey aims to guide researchers and practitioners by offering a clear taxonomy and highlighting future directions in this fast-evolving field. One can visit https://github.com/imxtx/awesome-controllabe-speech-synthesis for a comprehensive paper list and updates.
- Abstract(参考訳): Text-to-Speech (TTS)は、自然な音声を生成することから、感情、音色、スタイルなどの属性をきめ細かな制御が可能になった。
産業需要の増加とディープラーニング、拡散、および大規模言語モデル(LLM)のブレークスルーにより、制御可能なTSは急速に成長している研究領域となっている。
この調査は、従来の制御技術から、自然言語プロンプトを用いた新しいアプローチまで、制御可能なTSメソッドの包括的なレビューを初めて提供する。
我々は、モデルアーキテクチャ、制御戦略、特徴表現を分類するとともに、制御可能なTSにおける課題、データセット、評価を要約する。
本調査は,この急激な発展途上の分野において,明確な分類学を提供し,今後の方向性を明らかにすることによって,研究者や実践者を指導することを目的とする。
包括的なペーパーリストとアップデートのためにhttps://github.com/imxtx/awesome-controllabe-speech- synthesisを見ることができる。
関連論文リスト
- InstructTTSEval: Benchmarking Complex Natural-Language Instruction Following in Text-to-Speech Systems [48.42417538526542]
テキスト音声システムは、固定されたスタイルのラベルに依存したり、これらのキューを制御するために音声プロンプトを挿入する。
近年の試みでは、パラ言語的特徴を修飾する自然言語命令の活用が試みられている。
InstructTTSEvalは、複雑な自然言語スタイル制御の能力を測定するためのベンチマークである。
論文 参考訳(メタデータ) (2025-06-19T15:08:01Z) - Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis [5.283520143851873]
本稿では,データ最適化フレームワークと高度な音響モデルを統合し,高品質なTTSシステムを構築する手法を提案する。
本稿では,タイ語を実例として,複雑な音声規則とスパースリソースを効果的に扱う手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-04-10T15:32:57Z) - Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - A Survey of Text Style Transfer: Applications and Ethical Implications [4.749824105387292]
テキストスタイル転送(TST)は、テキストのスタイルに依存しない内容を変更することなく、丁寧さ、形式性、感情など、言語使用の選択された属性を制御することを目的としている。
本稿では,従来の言語アプローチと近年のディープラーニング手法の両方を用いて,長年にわたって研究されてきたTST応用の総合的なレビューを行う。
論文 参考訳(メタデータ) (2024-07-23T17:15:23Z) - Text to speech synthesis [0.27195102129095]
テキスト音声合成(TTS)は、テキストを音声に変換する技術である。
この抽象概念は、TS合成の重要な側面を探求し、その基礎技術、応用、および様々な分野における意味を包含する。
論文 参考訳(メタデータ) (2024-01-25T02:13:45Z) - A review-based study on different Text-to-Speech technologies [0.0]
本稿では, 共役TS, ホルマント合成TS, 統計パラメトリックTSなど, 利用可能なTS技術について検討する。
この研究は、これらの技術の利点と限界を、音声の自然性、システムの複雑さのレベル、異なるアプリケーションに適合する可能性の観点から比較することに焦点を当てている。
論文 参考訳(メタデータ) (2023-12-17T20:07:23Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。
我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。
我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-29T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。