論文の概要: Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese
- arxiv url: http://arxiv.org/abs/2505.11200v1
- Date: Fri, 16 May 2025 12:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.984808
- Title: Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese
- Title(参考訳): 音声チューリングテスト:中国語における大規模言語モデルに基づく音声合成システムの人間的類似性のベンチマーク
- Authors: Xihuai Wang, Ziyi Zhao, Siyu Ren, Shao Zhang, Song Li, Xiaoyu Li, Ziwen Wang, Lin Qiu, Guanglu Wan, Xuezhi Cao, Xunliang Cai, Weinan Zhang,
- Abstract要約: 我々は,多次元中国語コーパスデータセットATT-Corpusとチューリングテストにインスパイアされた評価プロトコルの組み合わせであるAudio Turing Test (ATT)を紹介する。
ATTは評価者に声が人間に聞こえるかどうかを判断するよう依頼する。
また、自動評価のためのオートATTとして、人間の判断データを用いたQwen2-Audio-Instructを微調整する。
- 参考スコア(独自算出の注目度): 36.208204572097046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have significantly improved text-to-speech (TTS) systems, enhancing control over speech style, naturalness, and emotional expression, which brings TTS Systems closer to human-level performance. Although the Mean Opinion Score (MOS) remains the standard for TTS System evaluation, it suffers from subjectivity, environmental inconsistencies, and limited interpretability. Existing evaluation datasets also lack a multi-dimensional design, often neglecting factors such as speaking styles, context diversity, and trap utterances, which is particularly evident in Chinese TTS evaluation. To address these challenges, we introduce the Audio Turing Test (ATT), a multi-dimensional Chinese corpus dataset ATT-Corpus paired with a simple, Turing-Test-inspired evaluation protocol. Instead of relying on complex MOS scales or direct model comparisons, ATT asks evaluators to judge whether a voice sounds human. This simplification reduces rating bias and improves evaluation robustness. To further support rapid model development, we also finetune Qwen2-Audio-Instruct with human judgment data as Auto-ATT for automatic evaluation. Experimental results show that ATT effectively differentiates models across specific capability dimensions using its multi-dimensional design. Auto-ATT also demonstrates strong alignment with human evaluations, confirming its value as a fast and reliable assessment tool. The white-box ATT-Corpus and Auto-ATT can be found in ATT Hugging Face Collection (https://huggingface.co/collections/meituan/audio-turing-test-682446320368164faeaf38a4).
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、テキスト音声システム(TTS)を大幅に改善し、音声スタイル、自然性、感情表現の制御を強化し、TTSシステムは人間レベルの性能に近づいた。
平均オピニオンスコア(MOS)は依然としてTSシステム評価の標準であるが、主観性、環境不整合、限定的な解釈可能性に悩まされている。
既存の評価データセットにも多次元的な設計が欠如しており、中国語のTTS評価では特に顕著な話し方や文脈の多様性、トラップ発話といった要素を無視することが多い。
これらの課題に対処するために,中国における多次元コーパスデータセットATT-Corpusと簡易なチューリングテストインスパイアされた評価プロトコルであるAudio Turing Test (ATT)を導入する。
複雑なMOSスケールや直接モデル比較に頼る代わりに、ATTは評価者に声が人間に聞こえるかどうかを判断するよう求める。
この単純化は評価バイアスを低減し、評価の堅牢性を改善する。
また,迅速なモデル開発を支援するため,人間の判断データをAuto-ATTとして自動評価するQwen2-Audio-Instructを微調整する。
実験結果から,ATTはその多次元設計を用いて,特定機能次元のモデルを効果的に識別できることが示唆された。
Auto-ATTはまた、人間の評価と強く一致しており、高速で信頼性の高い評価ツールとしての価値を確認している。
ホワイトボックスのATT-CorpusとAuto-ATTはATT Hugging Face Collection(https://huggingface.co/collections/meituan/audio-turing-test-682446320368164faeaf38a4)で見ることができる。
関連論文リスト
- Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition [31.58289343561422]
合成データ生成の範囲内で, 5種類のTSデコーダアーキテクチャを比較し, CTCに基づく音声認識学習への影響を示す。
データ生成における自己回帰復号法は,非自己回帰復号法よりも優れており,TTS一般化能力を定量化するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-31T09:37:27Z) - Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback [39.54647336161013]
テキスト音声(TTS)最適化に適したサンプリングアノテート学習フレームワークを提案する。
MOS, 単語誤り率, 話者類似度の観点から, UNO は TTS モデルのゼロショット性能を大幅に向上することを示した。
また、感情的TTSにおいて、所望の話し方にシームレスかつ柔軟に対応できるUNOの顕著な能力を示す。
論文 参考訳(メタデータ) (2024-06-02T07:54:33Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Comparison of Speech Representations for Automatic Quality Estimation in
Multi-Speaker Text-to-Speech Synthesis [21.904558308567122]
本研究の目的は,多話者テキスト音声合成の出力品質に異なる話者がどう貢献するかを特徴付けることである。
我々は、人間の平均評価スコア(MOS)に基づいてトレーニングされたニューラルネットワーク(NN)を使用して、TSの品質を自動的に評価する。
論文 参考訳(メタデータ) (2020-02-28T10:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。