論文の概要: Semantic-WER: A Unified Metric for the Evaluation of ASR Transcript for
End Usability
- arxiv url: http://arxiv.org/abs/2106.02016v1
- Date: Thu, 3 Jun 2021 17:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 17:01:50.366217
- Title: Semantic-WER: A Unified Metric for the Evaluation of ASR Transcript for
End Usability
- Title(参考訳): Semantic-WER: エンドユーザビリティのためのASRトランスクリプト評価のための統一メトリクス
- Authors: Somnath Roy
- Abstract要約: 最先端のシステムでは単語誤り率(WER)は5%未満である。
Semantic-WER (SWER) は、一般に下流のアプリケーションに対して、ASRの書き起こしを評価するための指標である。
- 参考スコア(独自算出の注目度): 1.599072005190786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in supervised, semi-supervised and self-supervised deep
learning algorithms have shown significant improvement in the performance of
automatic speech recognition(ASR) systems. The state-of-the-art systems have
achieved a word error rate (WER) less than 5%. However, in the past,
researchers have argued the non-suitability of the WER metric for the
evaluation of ASR systems for downstream tasks such as spoken language
understanding (SLU) and information retrieval. The reason is that the WER works
at the surface level and does not include any syntactic and semantic
knowledge.The current work proposes Semantic-WER (SWER), a metric to evaluate
the ASR transcripts for downstream applications in general. The SWER can be
easily customized for any down-stream task.
- Abstract(参考訳): 教師付き,半教師付き,自己教師型ディープラーニングアルゴリズムの最近の進歩は,自動音声認識(ASR)システムの性能を著しく向上させた。
最先端のシステムは、単語誤り率(WER)を5%未満で達成している。
しかし、過去には、音声言語理解(SLU)や情報検索といった下流タスクに対するASRシステムの評価において、WERメトリックが不適合であると主張してきた。
その理由は、WERが表面レベルで機能し、統語的および意味的な知識は含まないためであり、現在の研究は、一般に下流アプリケーションのためのASR転写物を評価する指標であるSemantic-WER(SWER)を提案する。
SWERはダウンストリームタスクでも簡単にカスタマイズできる。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques [17.166092544686553]
本研究では,3つのよく知られたコーパス上の11種類のモデルから,単語誤り率(WER)の異なるASR文字を用いた音声感情認識のベンチマークを行った。
本稿では, ASR 誤り訂正とモダリティゲート融合を統合した ASR 誤り処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:59:25Z) - Automatic Speech Recognition System-Independent Word Error Rate Estimation [23.25173244408922]
単語誤り率(Word error rate、WER)は、自動音声認識(ASR)システムによって生成された文字の質を評価するために用いられる指標である。
本稿では,ASRシステムに依存しないWER推定のための仮説生成手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T16:57:05Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - An ASR-Based Tutor for Learning to Read: How to Optimize Feedback to
First Graders [18.849741353784328]
前報では,ASRをベースとしたオランダ語読解指導アプリケーションについて紹介し,初等生の読み方に対する即時フィードバックについて検討した。
既存のコーパス (JASMIN) から得られた子どもの音声を用いて, 2つの新しいASRシステムの開発を行い, 前報と比較した。
ASRシステムの精度は、読み出しタスクや単語の種類によって異なる。
論文 参考訳(メタデータ) (2023-06-07T06:58:38Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Semantic Distance: A New Metric for ASR Performance Analysis Towards
Spoken Language Understanding [26.958001571944678]
本稿では,asrシステムの代替評価指標として,新しい意味距離尺度(semdist)を提案する。
提案したメトリクスが,インテント認識,セマンティック解析,名前付きエンティティ認識など,さまざまな下流タスクに有効であることを実証する。
論文 参考訳(メタデータ) (2021-04-05T20:25:07Z) - Knowledge Distillation for Improved Accuracy in Spoken Question
Answering [63.72278693825945]
我々は,音声文書や書面文書から知識蒸留を行うための訓練戦略を考案した。
我々の研究は、言語モデルから知識の抽出を監督信号として進めている。
実験により,本手法はSpken-SQuADデータセット上で,最先端の言語モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-21T15:18:01Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。