論文の概要: Evaluating Speech-to-Text Systems with PennSound
- arxiv url: http://arxiv.org/abs/2504.05702v1
- Date: Tue, 08 Apr 2025 05:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:26.801677
- Title: Evaluating Speech-to-Text Systems with PennSound
- Title(参考訳): PennSoundを用いた音声合成システムの評価
- Authors: Jonathan Wright, Mark Liberman, Neville Ryant, James Fiumara,
- Abstract要約: PennSoundから10時間近い音声のランダムサンプルを用いて音声-テキストシステムの評価を行った。
AWSは3つのシステムの中で最高のダイアリゼーションエラー率を持っていた。
- 参考スコア(独自算出の注目度): 6.318259415951669
- License:
- Abstract: A random sample of nearly 10 hours of speech from PennSound, the world's largest online collection of poetry readings and discussions, was used as a benchmark to evaluate several commercial and open-source speech-to-text systems. PennSound's wide variation in recording conditions and speech styles makes it a good representative for many other untranscribed audio collections. Reference transcripts were created by trained annotators, and system transcripts were produced from AWS, Azure, Google, IBM, NeMo, Rev.ai, Whisper, and Whisper.cpp. Based on word error rate, Rev.ai was the top performer, and Whisper was the top open source performer (as long as hallucinations were avoided). AWS had the best diarization error rates among three systems. However, WER and DER differences were slim, and various tradeoffs may motivate choosing different systems for different end users. We also examine the issue of hallucinations in Whisper. Users of Whisper should be cautioned to be aware of runtime options, and whether the speed vs accuracy trade off is acceptable.
- Abstract(参考訳): 世界最大の詩集や議論のオンラインコレクションであるPennSoundからの10時間近いスピーチのランダムなサンプルが、いくつかの商用およびオープンソースの音声テキストシステムを評価するためのベンチマークとして使用された。
PennSoundの録音条件と音声スタイルの幅広いバリエーションは、他の多くの未転写オーディオコレクションのよい代表となる。
参照書き起こしは、トレーニングされたアノテーションによって作成され、システム書き起こしは、AWS、Azure、Google、IBM、NeMo、Rev.ai、Whisper、Whisper.cppから作成された。
単語エラー率に基づいて、Rev.aiがトップパフォーマーであり、Whisperがトップのオープンソースパフォーマーであった(幻覚が避けられる限り)。
AWSは3つのシステムの中で最高のダイアリゼーションエラー率を持っていた。
しかし、WERとDERの違いは小さく、様々なトレードオフは、異なるエンドユーザーのために異なるシステムを選択する動機になるかもしれない。
ウィスパーにおける幻覚の問題についても検討する。
Whisperのユーザは、ランタイムオプションと、速度と精度のトレードオフが許容できるかどうかに注意する必要がある。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Quartered Spectral Envelope and 1D-CNN-based Classification of Normally Phonated and Whispered Speech [0.0]
フーリエ変換のスペクトル包絡には, 正常音声におけるピッチとピッチの高調波の存在と, ささやき音声が存在しないことが明らかである。
これらの特徴を捉えるために1次元畳み込みニューラルネットワーク(1D-CNN)を提案する。
このシステムは、wTIMITデータセットでトレーニングされテストされたときに99.31%、CHAINSデータセットで100%の精度が得られる。
論文 参考訳(メタデータ) (2024-08-25T07:17:11Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Turn-Taking Prediction for Natural Conversational Speech [40.189938418201656]
一般的な会話的発話は、ターンテイクを伴う複数のクエリを含むことが多い。
障害としては、思考の一時停止、ためらうこと、単語の延長、ポーズの充満、繰り返し句などがある。
本稿では,エンド・ツー・エンド(E2E)音声認識器上に構築されたターンテイク予測器を提案する。
論文 参考訳(メタデータ) (2022-08-29T01:09:23Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文 参考訳(メタデータ) (2021-06-18T20:58:34Z) - End-to-end Whispered Speech Recognition with Frequency-weighted
Approaches and Pseudo Whisper Pre-training [130.56878980058966]
発声音声のエンド・ツー・エンド(E2E)認識に対するいくつかのアプローチを提案する。
我々は,比較的小型のTIMITコーパスを用いて,PER19.8%,CER44.4%の相対的な削減を実現した。
正規または擬似発声音声で事前訓練された優れたE2Eモデルがある限り、比較的小さな発声音声は、合理的に優れたE2E発声音声認識器を得るのに十分である。
論文 参考訳(メタデータ) (2020-05-05T07:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。