論文の概要: Intelligibility of Text-to-Speech Systems for Mathematical Expressions
- arxiv url: http://arxiv.org/abs/2506.11086v1
- Date: Thu, 05 Jun 2025 06:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.566268
- Title: Intelligibility of Text-to-Speech Systems for Mathematical Expressions
- Title(参考訳): 数式表現のためのテキスト・音声システムの知能度
- Authors: Sujoy Roychowdhury, H. G. Ranjani, Sumit Soman, Nishtha Paul, Subhadip Bandyopadhyay, Siddhanth Iyengar,
- Abstract要約: 我々は、MXの様々なカテゴリの聴取および翻訳テストを通じて、5つのTSモデルの品質と信頼性を評価する実験を設計する。
TTSモデルでは直接処理できないため、2つのLarge Language Model (LLM) を用いてMXから英語の発音を生成する。
結果は、MXに対するTSモデルの出力が必ずしも理解不能であるとは限らないことを証明し、TTSモデルとMX間でのインテリジェンスギャップが変化することを示した。
- 参考スコア(独自算出の注目度): 12.658177399162795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been limited evaluation of advanced Text-to-Speech (TTS) models with Mathematical eXpressions (MX) as inputs. In this work, we design experiments to evaluate quality and intelligibility of five TTS models through listening and transcribing tests for various categories of MX. We use two Large Language Models (LLMs) to generate English pronunciation from LaTeX MX as TTS models cannot process LaTeX directly. We use Mean Opinion Score from user ratings and quantify intelligibility through transcription correctness using three metrics. We also compare listener preference of TTS outputs with respect to human expert rendition of same MX. Results establish that output of TTS models for MX is not necessarily intelligible, the gap in intelligibility varies across TTS models and MX category. For most categories, performance of TTS models is significantly worse than that of expert rendition. The effect of choice of LLM is limited. This establishes the need to improve TTS models for MX.
- Abstract(参考訳): 数学的 eXpressions (MX) を入力として, 高度なテキスト音声合成(TTS)モデルの評価が限定されている。
本研究は,MXの様々なカテゴリの聴取および翻訳テストを通じて,5つのTSモデルの品質と信頼性を評価する実験を設計する。
TTSモデルではLaTeXを直接処理できないため,2つのLarge Language Model (LLM) を用いてLaTeX MXから英語の発音を生成する。
ユーザ評価から平均オピニオンスコアを抽出し,3つの指標を用いて文字の正確性を通じてインテリジェンスを定量化する。
また、TTS出力のリスナー選好を、ヒトの専門家による同じMXの修正について比較する。
結果は、MXに対するTSモデルの出力が必ずしも理解不能であるとは限らないことを証明し、TTSモデルとMXカテゴリ間でのインテリジェンスギャップが変化することを示した。
ほとんどのカテゴリーでは、TSモデルの性能は専門家の回帰よりも著しく劣っている。
LLMの選択効果は限られている。
これにより、MXのTSモデルを改善する必要がある。
関連論文リスト
- EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge [25.51206687438354]
我々は6つのTSシナリオをカバーする包括的なベンチマークである$textitEmergentTTS-Evalを紹介した。
我々のフレームワークはテストケースの生成と評価の両方を自動化するので、ベンチマークが容易にアクセスできます。
我々は、EmergentTTS-Eval上で、11Labs、Deepgram、OpenAIの4o-mini-TTSといった最先端のオープンソースおよびプロプライエタリなTSシステムを評価した。
論文 参考訳(メタデータ) (2025-05-29T02:36:24Z) - Text-To-Speech Synthesis In The Wild [76.71096751337888]
我々は、VoxCeleb1データセットに適用された完全に自動化されたパイプラインを通じて生成されるTS In the Wildデータセットを紹介します。
TITW-Hardは、生のVoxCeleb1データの転写、セグメンテーション、選択から派生したTITW-Hardと、DNSMOSに基づいたさらなる拡張とデータ選択を含むTITW-Easyの2つのトレーニングセットで構成されている。
論文 参考訳(メタデータ) (2024-09-13T10:58:55Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised
representations [27.157701195636477]
ParrotTTSは、モジュール化されたテキスト音声合成モデルである。
単一の話者からの書き起こしを使って、効果的にマルチスピーカーの変種を訓練することができる。
低リソース設定で新しい言語に適応し、自己管理バックボーンのトレーニング中に見えない言語に一般化する。
論文 参考訳(メタデータ) (2023-03-01T17:23:12Z) - Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a
Case Study [44.07589545984369]
本稿では、自動データ選択と事前学習/微調整戦略を含む、TS構築のための完全に教師なしの手法を提案する。
我々は,データの選択を慎重に行うことで,TSシステムの効率が向上することを示す。
評価の結果,CERは3.9%,CERは1.3%であった。
論文 参考訳(メタデータ) (2023-01-22T10:41:58Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。
新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文 参考訳(メタデータ) (2021-10-15T03:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。