論文の概要: SP-MCQA: Evaluating Intelligibility of TTS Beyond the Word Level
- arxiv url: http://arxiv.org/abs/2510.26190v1
- Date: Thu, 30 Oct 2025 06:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.692066
- Title: SP-MCQA: Evaluating Intelligibility of TTS Beyond the Word Level
- Title(参考訳): SP-MCQA:単語レベルを超えてTSの信頼性を評価する
- Authors: Hitomi Jin Ling Tee, Chaoren Wang, Zijie Zhang, Zhizheng Wu,
- Abstract要約: 既存の評価は、WERのような単語ごとの精度の指標に大きく依存している。
本稿では,音声合成における鍵情報の正確性を評価する新しい主観的アプローチであるスポケンパッサージ多重質問応答を提案する。
我々の実験によると、低WERは必ずしも高い鍵情報精度を保証せず、従来のメトリクスと実用的な知性の間のギャップを露呈している。
- 参考スコア(独自算出の注目度): 5.3631215786783715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of intelligibility for TTS has reached a bottleneck, as existing assessments heavily rely on word-by-word accuracy metrics such as WER, which fail to capture the complexity of real-world speech or reflect human comprehension needs. To address this, we propose Spoken-Passage Multiple-Choice Question Answering, a novel subjective approach evaluating the accuracy of key information in synthesized speech, and release SP-MCQA-Eval, an 8.76-hour news-style benchmark dataset for SP-MCQA evaluation. Our experiments reveal that low WER does not necessarily guarantee high key-information accuracy, exposing a gap between traditional metrics and practical intelligibility. SP-MCQA shows that even state-of-the-art (SOTA) models still lack robust text normalization and phonetic accuracy. This work underscores the urgent need for high-level, more life-like evaluation criteria now that many systems already excel at WER yet may fall short on real-world intelligibility.
- Abstract(参考訳): 既存の評価は、実世界の音声の複雑さを捉えたり、人間の理解のニーズを反映したりするのに失敗するWERのような単語単位の精度の指標に大きく依存しているため、TSの信頼性の評価はボトルネックに達している。
そこで本研究では,音声合成音声におけるキー情報の精度を評価する新しい主観的アプローチであるSpken-Passage Multiple-Choice Question Answeringを提案し,SP-MCQA評価のための8.76時間ニューススタイルベンチマークデータセットであるSP-MCQA-Evalをリリースする。
我々の実験によると、低WERは必ずしも高い鍵情報精度を保証せず、従来のメトリクスと実用的な知性の間のギャップを露呈している。
SP-MCQAは、最先端(SOTA)モデルでさえも頑健なテキスト正規化と音韻精度を欠いていることを示している。
この研究は、WERですでに優れている多くのシステムが現実世界の知性に乏しいため、より高度な、より生活的な評価基準の緊急の必要性を浮き彫りにしている。
関連論文リスト
- A Knowledge Graph and a Tripartite Evaluation Framework Make Retrieval-Augmented Generation Scalable and Transparent [0.0]
本研究では,知識グラフとベクトル探索を用いて,文脈に富んだ応答を提供する検索型拡張生成(RAG)を提案する。
この研究の中心的な革新はRAG評価(RAG-Eval)の導入である。
RAG-Evalは、事実のギャップとクエリミスマッチを確実に検出し、高要求でデータ中心の環境への信頼を高める。
論文 参考訳(メタデータ) (2025-09-23T16:29:22Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese [36.208204572097046]
我々は,多次元中国語コーパスデータセットATT-Corpusとチューリングテストにインスパイアされた評価プロトコルの組み合わせであるAudio Turing Test (ATT)を紹介する。
ATTは評価者に声が人間に聞こえるかどうかを判断するよう依頼する。
また、自動評価のためのオートATTとして、人間の判断データを用いたQwen2-Audio-Instructを微調整する。
論文 参考訳(メタデータ) (2025-05-16T12:57:23Z) - Evaluation Under Imperfect Benchmarks and Ratings: A Case Study in Text Simplification [13.381644813030725]
様々なサイズのモデルによって生成される単純化された文を特徴付けるテキスト単純化のための合成ベンチマークを提案する。
評価の結果,評価基準はアノテータ間の高い一致を示し,予想される傾向を反映していることがわかった。
第2に, LLM審査員(LLMs-as-a-jury)による自動評価は, テキスト簡易化評価において一貫した評価を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2025-04-13T01:36:47Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z) - Exploring Opinion-unaware Video Quality Assessment with Semantic
Affinity Criterion [52.07084862209754]
コントラッシブ言語画像事前学習モデルにおけるテキストプロンプトを用いた意見認識型VQAに対する明示的セマンティック親和性指標を提案する。
また、ガウス正規化とシグモイド再スケーリング戦略を通じて、異なる伝統的な低レベル自然度指数を集約する。
The proposed Blind Unified Opinion-Unaware Video Quality Index via Semantic and Technical Metric Aggregation (BUONA-VISTA)は、既存の意見不明のVQA手法を少なくとも20%改善した。
論文 参考訳(メタデータ) (2023-02-26T08:46:07Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - A Framework for Evaluation of Machine Reading Comprehension Gold
Standards [7.6250852763032375]
本稿では,現在の言語的特徴,必要な推論,背景知識,事実的正当性を調査するための統一的な枠組みを提案する。
語彙的曖昧さに寄与する特徴の欠如、期待される回答の様々な事実的正しさ、および語彙的手がかりの存在は、いずれも、評価データの読解の複雑さと品質を低下させる可能性がある。
論文 参考訳(メタデータ) (2020-03-10T11:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。