Fugu-MT 論文翻訳(概要): Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey

論文の概要: Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey

arxiv url: http://arxiv.org/abs/2412.06602v2
Date: Thu, 27 Mar 2025 03:56:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 14:27:25.965639
Title: Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey
Title（参考訳）: 大規模言語モデルにおける制御可能な音声合成に向けて:調査
Authors: Tianxin Xie, Yan Rong, Pengfei Zhang, Wenwu Wang, Li Liu,
Abstract要約: Text-to-speech (TTS)は、テキストから自然な人間の音声を生成することを目的としている。 TTS技術は、制御可能な音声生成を可能にするために、人間のような音声を超えて進化してきた。拡散や大言語モデルといったディープラーニングは、制御可能なTSを大幅に強化した。
参考スコア（独自算出の注目度）: 14.461679448919751
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-speech (TTS), also known as speech synthesis, is a prominent research area that aims to generate natural-sounding human speech from text. Recently, with the increasing industrial demand, TTS technologies have evolved beyond synthesizing human-like speech to enabling controllable speech generation. This includes fine-grained control over various attributes of synthesized speech such as emotion, prosody, timbre, and duration. In addition, advancements in deep learning, such as diffusion and large language models, have significantly enhanced controllable TTS over the past several years. In this work, we conduct a comprehensive survey of controllable TTS, covering approaches ranging from basic control techniques to methods utilizing natural language prompts, aiming to provide a clear understanding of the current state of research. We examine the general controllable TTS pipeline, challenges, model architectures, and control strategies, offering a comprehensive and clear taxonomy of existing methods. Additionally, we provide a detailed summary of datasets and evaluation metrics and shed some light on the applications and future directions of controllable TTS. To the best of our knowledge, this survey paper provides the first comprehensive review of emerging controllable TTS methods, which can serve as a beneficial resource for both academic researchers and industrial practitioners.
Abstract（参考訳）: テキスト音声合成(英語: Text-to-Speech、TTS)は、テキストから自然に聞こえる人間の音声を生成することを目的とした、顕著な研究分野である。近年,産業需要の増大に伴い,TS技術は人間のような音声の合成を超えて,制御可能な音声生成を実現している。これには、感情、韻律、音色、持続時間などの合成音声の様々な属性のきめ細かい制御が含まれる。さらに,拡散モデルや大規模言語モデルなどのディープラーニングの進歩により,ここ数年で制御可能なTSが大幅に向上した。本研究では,制御可能なTTSの総合的な調査を行い,基本制御技術から自然言語のプロンプトを利用した手法まで,研究の現状を明確に把握することを目的としている。本稿では,一般的な制御可能なTSパイプライン,課題,モデルアーキテクチャ,コントロール戦略について検討し,既存の手法の包括的で明確な分類法を提供する。さらに、データセットと評価指標の詳細な概要を提供し、制御可能なTSの応用と今後の方向性について光を当てる。我々の知る限り、本調査は、新しい制御可能なTS手法の総合的なレビューを初めて提供し、学術研究者と産業従事者の両方にとって有益な情報源となる。

関連論文リスト

BatonVoice: An Operationalist Framework for Enhancing Controllable Speech Synthesis with Linguistic Intelligence from LLMs [84.59993864748195]
音声生成から命令理解を分離する「操作主義」に着想を得た新しいパラダイムを提案する。本稿では,LLMが導体として機能するフレームワークであるBatonVoiceを紹介し,ユーザの指示を理解する。別個のTSモデルである「オーケストラ」は、これらの特徴から音声を生成する。
論文参考訳（メタデータ） (2025-09-30T16:52:14Z)
HiStyle: Hierarchical Style Embedding Predictor for Text-Prompt-Guided Controllable Speech Synthesis [17.743822016045446]
制御可能な音声合成とは、特定の韻律的・パラ言語的属性を操作することによって、発話スタイルを正確に制御することを指す。テキストのプロンプトに条件付けされたスタイル埋め込みを階層的に予測する2段階型埋め込み予測器であるHiStyleを提案する。
論文参考訳（メタデータ） (2025-09-30T06:31:12Z)
InstructTTSEval: Benchmarking Complex Natural-Language Instruction Following in Text-to-Speech Systems [48.42417538526542]
テキスト音声システムは、固定されたスタイルのラベルに依存したり、これらのキューを制御するために音声プロンプトを挿入する。近年の試みでは、パラ言語的特徴を修飾する自然言語命令の活用が試みられている。 InstructTTSEvalは、複雑な自然言語スタイル制御の能力を測定するためのベンチマークである。
論文参考訳（メタデータ） (2025-06-19T15:08:01Z)
Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis [5.283520143851873]
本稿では,データ最適化フレームワークと高度な音響モデルを統合し,高品質なTTSシステムを構築する手法を提案する。本稿では,タイ語を実例として,複雑な音声規則とスパースリソースを効果的に扱う手法の有効性を実証する。
論文参考訳（メタデータ） (2025-04-10T15:32:57Z)
Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。 GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文参考訳（メタデータ） (2024-10-17T06:44:06Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
Controllable Text Generation for Large Language Models: A Survey [27.110528099257156]
本稿では,大規模言語モデルにおける制御可能なテキスト生成の最近の進歩を体系的にレビューする。我々はCTGタスクをコンテンツ制御と制御の2つの主要なタイプに分類する。現在の研究における重要な課題には、流用率の低減や実用性といった課題に対処する。
論文参考訳（メタデータ） (2024-08-22T17:59:04Z)
A Survey of Text Style Transfer: Applications and Ethical Implications [4.749824105387292]
テキストスタイル転送(TST)は、テキストのスタイルに依存しない内容を変更することなく、丁寧さ、形式性、感情など、言語使用の選択された属性を制御することを目的としている。本稿では,従来の言語アプローチと近年のディープラーニング手法の両方を用いて,長年にわたって研究されてきたTST応用の総合的なレビューを行う。
論文参考訳（メタデータ） (2024-07-23T17:15:23Z)
Text to speech synthesis [0.27195102129095]
テキスト音声合成(TTS)は、テキストを音声に変換する技術である。この抽象概念は、TS合成の重要な側面を探求し、その基礎技術、応用、および様々な分野における意味を包含する。
論文参考訳（メタデータ） (2024-01-25T02:13:45Z)
A review-based study on different Text-to-Speech technologies [0.0]
本稿では, 共役TS, ホルマント合成TS, 統計パラメトリックTSなど, 利用可能なTS技術について検討する。この研究は、これらの技術の利点と限界を、音声の自然性、システムの複雑さのレベル、異なるアプリケーションに適合する可能性の観点から比較することに焦点を当てている。
論文参考訳（メタデータ） (2023-12-17T20:07:23Z)
GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文参考訳（メタデータ） (2023-11-24T16:19:04Z)
TextrolSpeech: A Text Style Control Speech Corpus With Codec Language Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-08-28T09:06:32Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
On the Interplay Between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文参考訳（メタデータ） (2021-10-04T02:03:28Z)
A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文参考訳（メタデータ） (2021-06-29T16:50:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。