論文の概要: Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages
- arxiv url: http://arxiv.org/abs/2604.21481v1
- Date: Thu, 23 Apr 2026 09:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.421964
- Title: Preferences of a Voice-First Nation: Large-Scale Pairwise Evaluation and Preference Analysis for TTS in Indian Languages
- Title(参考訳): 音声ファーストネイションの選好:インド語におけるTTSの大規模評価と選好分析
- Authors: Srija Anand, Ashwin Sankar, Ishvinder Sethi, Aaditya Pareek, Kartik Rajput, Gaurav Yadav, Nikhil Narasimhan, Adish Pandya, Deepon Halder, Mohammed Safi Ur Rahman Khan, Praveen S, Shobhit Banga, Mitesh M Khapra,
- Abstract要約: 多言語TSのための多次元ペアワイズ評価フレームワークを提案する。
現状のTSSシステム7つを評価し,1900以上のネイティブアレーダから120K以上のペア比較を行った。
- 参考スコア(独自算出の注目度): 14.465157274862952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowdsourced pairwise evaluation has emerged as a scalable approach for assessing foundation models. However, applying it to Text to Speech(TTS) introduces high variance due to linguistic diversity and multidimensional nature of speech perception. We present a controlled multidimensional pairwise evaluation framework for multilingual TTS that combines linguistic control with perceptually grounded annotation. Using 5K+ native and code-mixed sentences across 10 Indic languages, we evaluate 7 state-of-the-art TTS systems and collect over 120K pairwise comparisons from over 1900 native raters. In addition to overall preference, raters provide judgments across 6 perceptual dimensions: intelligibility, expressiveness, voice quality, liveliness, noise, and hallucinations. Using Bradley-Terry modeling, we construct a multilingual leaderboard, interpret human preference using SHAP analysis and analyze leaderboard reliability alongside model strengths and trade-offs across perceptual dimensions.
- Abstract(参考訳): ファンデーションモデルを評価するためのスケーラブルなアプローチとして、クラウドソースによるペアワイズ評価が登場した。
しかし、テキスト・トゥ・スピーチ(TTS)に適用すると、言語的多様性と多次元の音声知覚の性質により、高いばらつきが生じる。
言語制御と知覚的接地アノテーションを組み合わせた多言語TSのための多次元ペアワイズ評価フレームワークを提案する。
Indic言語10言語にまたがる5K+のネイティブ文とコード混合文を用いて、7つの最先端TSシステムを評価し、1900以上のネイティブアレーダから120K以上のペア比較を収集した。
全体的な嗜好に加えて、ラッカーは知性、表現性、声質、活気、騒音、幻覚の6つの知覚次元にまたがる判断を提供する。
Bradley-Terryモデルを用いて、多言語リーダーボードを構築し、SHAP分析を用いて人間の嗜好を解釈し、モデル強度と知覚次元間のトレードオフとともに、リーダーボードの信頼性を分析する。
関連論文リスト
- VocalBench-zh: Decomposing and Benchmarking the Speech Conversational Abilities in Mandarin Context [32.35011898483814]
本稿では,マンダリン文脈に適応した能力レベル分割評価スイートであるVocalBench-zhを提案する。
14の主流モデルに対する評価実験は、現在のルートに対する共通の課題を明らかにしている。
論文 参考訳(メタデータ) (2025-11-11T13:30:41Z) - In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties [24.74769794165231]
本稿では,Phi-4 Multimodal におけるコンテキスト内学習(ICL)を実現するスケーラブルなフレームワークを提案する。
単語の誤り率を相対的に19.7%減少させるのは、12の例に過ぎない。
全体として、我々の新しいICL適応方式は、人間の聴取者と同様の性能を示す。
論文 参考訳(メタデータ) (2025-05-20T20:20:37Z) - Classification of Spontaneous and Scripted Speech for Multilingual Audio [9.925703861731506]
発話スタイルが音声処理研究にどのように影響するかをよりよく理解するためには,自発音声からスクリプトを識別することが不可欠である。
本稿では,様々な形式や言語にまたがってよく一般化された分類器を構築することの課題に対処する。
従来型,手作り音響,韻律的特徴から高度なオーディオトランスフォーマーまで,様々なモデルを体系的に評価する。
論文 参考訳(メタデータ) (2024-12-16T15:45:10Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。