論文の概要: Aligning ASR Evaluation with Human and LLM Judgments: Intelligibility Metrics Using Phonetic, Semantic, and NLI Approaches
- arxiv url: http://arxiv.org/abs/2506.16528v1
- Date: Thu, 19 Jun 2025 18:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.217175
- Title: Aligning ASR Evaluation with Human and LLM Judgments: Intelligibility Metrics Using Phonetic, Semantic, and NLI Approaches
- Title(参考訳): 人間とLLMの判断によるASR評価の調整:音素・意味・NLIアプローチを用いた知能度測定
- Authors: Bornali Phukon, Xiuwen Zheng, Mark Hasegawa-Johnson,
- Abstract要約: 1)既存のメトリクスは知性を十分に反映していない、(2)LSMはASR出力を洗練できるが、ASR書き起こしの修正の有効性は過小評価されている。
本稿では,自然言語推論(NLI)スコア,意味的類似性,音韻的類似性を組み合わせた新しいメトリクスを提案する。
我々のASR評価基準は,音声アクセシビリティプロジェクトデータにおける人間の判断と0.890の相関を達成し,従来の手法を超越し,誤りに基づく尺度よりもインテリジェンスを優先する必要性を強調した。
- 参考スコア(独自算出の注目度): 28.79400870481616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional ASR metrics like WER and CER fail to capture intelligibility, especially for dysarthric and dysphonic speech, where semantic alignment matters more than exact word matches. ASR systems struggle with these speech types, often producing errors like phoneme repetitions and imprecise consonants, yet the meaning remains clear to human listeners. We identify two key challenges: (1) Existing metrics do not adequately reflect intelligibility, and (2) while LLMs can refine ASR output, their effectiveness in correcting ASR transcripts of dysarthric speech remains underexplored. To address this, we propose a novel metric integrating Natural Language Inference (NLI) scores, semantic similarity, and phonetic similarity. Our ASR evaluation metric achieves a 0.890 correlation with human judgments on Speech Accessibility Project data, surpassing traditional methods and emphasizing the need to prioritize intelligibility over error-based measures.
- Abstract(参考訳): WERやCERのような伝統的なASRのメトリクスは、特に、意味的アライメントが正確な単語の一致よりも重要であるような、変形性や不協和音の発話において、知性を把握するのに失敗する。
ASRシステムはこれらの音声タイプに苦慮し、しばしば音素の繰り返しや不正確な子音のような誤りを生じるが、これは人間の聴取者にとって明らかな意味である。
本研究は,(1)既存の指標では知能を十分に反映していないこと,(2)LSMがASRの出力を洗練できること,の2つの主要な課題を同定する。
そこで本研究では,自然言語推論(NLI)スコア,意味的類似性,音韻的類似性を組み合わせた新しいメトリクスを提案する。
我々のASR評価基準は,音声アクセシビリティプロジェクトデータにおける人間の判断と0.890の相関を達成し,従来の手法を超越し,誤りに基づく尺度よりもインテリジェンスを優先する必要性を強調した。
関連論文リスト
- Contextual ASR Error Handling with LLMs Augmentation for Goal-Oriented Conversational AI [27.56203179880491]
汎用自動音声認識(ASR)システムは、目標指向対話において必ずしもよく機能しない。
我々は、事前のユーザデータを持たないタスクに修正を拡張し、語彙や構文の変化のような言語的柔軟性を示す。
論文 参考訳(メタデータ) (2025-01-10T17:35:06Z) - Lost in Transcription: Identifying and Quantifying the Accuracy Biases of Automatic Speech Recognition Systems Against Disfluent Speech [0.0]
音声認識システムは、典型的な流布から逸脱した音声パターンを正確に解釈することができず、重要なユーザビリティの問題や誤解釈につながる。
本研究は6つの主要なASRを解析し,発話サンプルの実際のデータセットと,広範に使用されているLibriSpeechベンチマークから得られた合成データセットを解析した。
結果より,すべてのASRにおいて,非流動性音声に対する一貫した,統計的に有意な精度バイアスがみられ,転写における意味的不正確性や意味的不正確性がみられた。
論文 参考訳(メタデータ) (2024-05-10T00:16:58Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。