論文の概要: InstructTTSEval: Benchmarking Complex Natural-Language Instruction Following in Text-to-Speech Systems
- arxiv url: http://arxiv.org/abs/2506.16381v1
- Date: Thu, 19 Jun 2025 15:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.124367
- Title: InstructTTSEval: Benchmarking Complex Natural-Language Instruction Following in Text-to-Speech Systems
- Title(参考訳): InstructTTSEval:テキスト音声システムにおける複雑な自然言語教育のベンチマーク
- Authors: Kexin Huang, Qian Tu, Liwei Fan, Chenchen Yang, Dong Zhang, Shimin Li, Zhaoye Fei, Qinyuan Cheng, Xipeng Qiu,
- Abstract要約: テキスト音声システムは、固定されたスタイルのラベルに依存したり、これらのキューを制御するために音声プロンプトを挿入する。
近年の試みでは、パラ言語的特徴を修飾する自然言語命令の活用が試みられている。
InstructTTSEvalは、複雑な自然言語スタイル制御の能力を測定するためのベンチマークである。
- 参考スコア(独自算出の注目度): 48.42417538526542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In modern speech synthesis, paralinguistic information--such as a speaker's vocal timbre, emotional state, and dynamic prosody--plays a critical role in conveying nuance beyond mere semantics. Traditional Text-to-Speech (TTS) systems rely on fixed style labels or inserting a speech prompt to control these cues, which severely limits flexibility. Recent attempts seek to employ natural-language instructions to modulate paralinguistic features, substantially improving the generalization of instruction-driven TTS models. Although many TTS systems now support customized synthesis via textual description, their actual ability to interpret and execute complex instructions remains largely unexplored. In addition, there is still a shortage of high-quality benchmarks and automated evaluation metrics specifically designed for instruction-based TTS, which hinders accurate assessment and iterative optimization of these models. To address these limitations, we introduce InstructTTSEval, a benchmark for measuring the capability of complex natural-language style control. We introduce three tasks, namely Acoustic-Parameter Specification, Descriptive-Style Directive, and Role-Play, including English and Chinese subsets, each with 1k test cases (6k in total) paired with reference audio. We leverage Gemini as an automatic judge to assess their instruction-following abilities. Our evaluation of accessible instruction-following TTS systems highlights substantial room for further improvement. We anticipate that InstructTTSEval will drive progress toward more powerful, flexible, and accurate instruction-following TTS.
- Abstract(参考訳): 現代の音声合成において、話し手の声の音色、感情状態、動的韻律といったパラ言語的な情報は、単なる意味論を超えてニュアンスを伝える上で重要な役割を担っている。
従来のTTS(Text-to-Speech)システムは、固定されたスタイルラベルに依存したり、これらのキューを制御するために音声プロンプトを挿入することで、柔軟性を著しく制限する。
最近の試みでは、パラ言語的特徴を変調するための自然言語命令を導入し、命令駆動型TSモデルの一般化を大幅に改善しようとしている。
現在、多くのTSシステムはテキスト記述によるカスタマイズ合成をサポートしているが、複雑な命令を解釈し実行するための実際の能力はほとんど探索されていない。
さらに、これらのモデルの正確な評価と反復最適化を妨げる命令ベースのTS用に特別に設計された高品質なベンチマークと自動評価指標がまだ不足している。
これらの制約に対処するために、複雑な自然言語スタイル制御の能力を測定するためのベンチマークであるInstructTTSEvalを導入する。
本稿では,英語と中国語のサブセットを含む音響パラメータ仕様,記述型ディレクティブ,ロールプレイの3つのタスクについて紹介する。
我々は、ジェミニを自動判断器として活用し、その指示追従能力を評価する。
アクセシブルインストラクション追従型TSシステムの評価は,さらなる改善の余地を浮き彫りにしている。
InstructTTSEvalは、より強力でフレキシブルで正確な命令追従TTSに向けた進展を期待する。
関連論文リスト
- Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese [36.208204572097046]
我々は,多次元中国語コーパスデータセットATT-Corpusとチューリングテストにインスパイアされた評価プロトコルの組み合わせであるAudio Turing Test (ATT)を紹介する。
ATTは評価者に声が人間に聞こえるかどうかを判断するよう依頼する。
また、自動評価のためのオートATTとして、人間の判断データを用いたQwen2-Audio-Instructを微調整する。
論文 参考訳(メタデータ) (2025-05-16T12:57:23Z) - GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - StyleSpeech: Parameter-efficient Fine Tuning for Pre-trained Controllable Text-to-Speech [13.713209707407712]
StyleSpeechは、合成音声の自然性と精度を高める新しいテキスト音声合成システムである。
既存のTS技術に基づいて、StyleSpeechには独自のStyle Decorator構造が組み込まれており、ディープラーニングモデルでスタイルと音素の特徴を同時に学習することができる。
LoRAは、事前訓練されたモデルにおけるスタイル機能の効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-08-27T00:37:07Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Expressive TTS Driven by Natural Language Prompts Using Few Human
Annotations [12.891344121936902]
Expressive Text-to-Speech (TTS) は、人間の声調、気分、さらには芸術的特性で音声を合成することを目的としている。
TTSの最近の進歩は、自然言語のプロンプトを通じて、ユーザーが直接合成スタイルを制御できるようになる。
最小限のアノテーションを持つ制御可能な表現型TSモデルであるFreeStyleTTS(FS-TTS)を提案する。
論文 参考訳(メタデータ) (2023-11-02T14:20:37Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。