論文の概要: Evaluating User Perception of Speech Recognition System Quality with
Semantic Distance Metric
- arxiv url: http://arxiv.org/abs/2110.05376v1
- Date: Mon, 11 Oct 2021 16:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:39:19.826925
- Title: Evaluating User Perception of Speech Recognition System Quality with
Semantic Distance Metric
- Title(参考訳): セマンティック距離メトリックによる音声認識システム品質のユーザ認識の評価
- Authors: Suyoun Kim, Duc Le, Weiyi Zheng, Tarun Singh, Abhinav Arora, Xiaoyu
Zhai, Christian Fuegen, Ozlem Kalinli, Michael L. Seltzer
- Abstract要約: ワードエラー率(WER)は、ASRシステムの品質を評価するために伝統的に用いられてきた。
本稿では,意味的正しさを計測できるSemDistを用いて,ASR出力の品質評価を行う。
- 参考スコア(独自算出の注目度): 22.884709676587377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Measuring automatic speech recognition (ASR) system quality is critical for
creating user-satisfying voice-driven applications. Word Error Rate (WER) has
been traditionally used to evaluate ASR system quality; however, it sometimes
correlates poorly with user perception of transcription quality. This is
because WER weighs every word equally and does not consider semantic
correctness which has a higher impact on user perception. In this work, we
propose evaluating ASR output hypotheses quality with SemDist that can measure
semantic correctness by using the distance between the semantic vectors of the
reference and hypothesis extracted from a pre-trained language model. Our
experimental results of 71K and 36K user annotated ASR output quality show that
SemDist achieves higher correlation with user perception than WER. We also show
that SemDist has higher correlation with downstream NLU tasks than WER.
- Abstract(参考訳): 自動音声認識(ASR)システム品質の測定は、ユーザ満足度の高い音声駆動アプリケーションを作成する上で重要である。
Word Error Rate (WER) はASRシステムの品質を評価するために伝統的に用いられてきたが、ユーザによる転写品質の認識と相関することがある。
これは、WERが全ての単語を均等に重み付け、ユーザーの知覚に影響を及ぼす意味的正しさを考慮しないためである。
本研究では,参照のセマンティックベクトルと事前学習された言語モデルから抽出した仮説との距離を用いて意味的正しさを計測できるSemDistを用いたASR出力仮説の品質評価を提案する。
71K と 36K のユーザアノテート ASR 出力品質実験の結果,SemDist は WER よりもユーザ認識との相関性が高いことがわかった。
また、SemDistは、WERよりも下流のNLUタスクとの相関が高いことを示す。
関連論文リスト
- Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Automatic Speech Recognition System-Independent Word Error Rate Estimation [23.25173244408922]
単語誤り率(Word error rate、WER)は、自動音声認識(ASR)システムによって生成された文字の質を評価するために用いられる指標である。
本稿では,ASRシステムに依存しないWER推定のための仮説生成手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T16:57:05Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition
via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning [0.20999222360659603]
NoRefERは、自動音声認識(ASR)システムのための新しい基準のない品質指標である。
NoRefERは、ASRの複数の圧縮レベルからの仮説間の既知の品質関係を利用して、品質によるサンプル内仮説のランク付けを学習する。
以上の結果から,NoRefERは基準ベースメトリクスとそのサンプル内ランクと高い相関性を示し,基準のないASR評価やa/bテストの可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T21:26:19Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Semantic-WER: A Unified Metric for the Evaluation of ASR Transcript for
End Usability [1.599072005190786]
最先端のシステムでは単語誤り率(WER)は5%未満である。
Semantic-WER (SWER) は、一般に下流のアプリケーションに対して、ASRの書き起こしを評価するための指標である。
論文 参考訳(メタデータ) (2021-06-03T17:35:14Z) - Semantic Distance: A New Metric for ASR Performance Analysis Towards
Spoken Language Understanding [26.958001571944678]
本稿では,asrシステムの代替評価指標として,新しい意味距離尺度(semdist)を提案する。
提案したメトリクスが,インテント認識,セマンティック解析,名前付きエンティティ認識など,さまざまな下流タスクに有効であることを実証する。
論文 参考訳(メタデータ) (2021-04-05T20:25:07Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。