論文の概要: H_eval: A new hybrid evaluation metric for automatic speech recognition
tasks
- arxiv url: http://arxiv.org/abs/2211.01722v3
- Date: Fri, 1 Dec 2023 12:54:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 19:17:42.728304
- Title: H_eval: A new hybrid evaluation metric for automatic speech recognition
tasks
- Title(参考訳): h_eval:自動音声認識タスクのための新しいハイブリッド評価指標
- Authors: Zitha Sasindran, Harsha Yelchuri, T. V. Prabhakar, Supreeth Rao
- Abstract要約: ASRシステムのための新しいハイブリッド評価指標であるH_evalを提案する。
意味的正当性と誤り率の両方を考慮し、WERとSDが不十分なシナリオでは極めてよく機能する。
- 参考スコア(独自算出の注目度): 0.3277163122167433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many studies have examined the shortcomings of word error rate (WER) as an
evaluation metric for automatic speech recognition (ASR) systems. Since WER
considers only literal word-level correctness, new evaluation metrics based on
semantic similarity such as semantic distance (SD) and BERTScore have been
developed. However, we found that these metrics have their own limitations,
such as a tendency to overly prioritise keywords. We propose H_eval, a new
hybrid evaluation metric for ASR systems that considers both semantic
correctness and error rate and performs significantly well in scenarios where
WER and SD perform poorly. Due to lighter computation compared to BERTScore, it
offers 49 times reduction in metric computation time. Furthermore, we show that
H_eval correlates strongly with downstream NLP tasks. Also, to reduce the
metric calculation time, we built multiple fast and lightweight models using
distillation techniques
- Abstract(参考訳): 多くの研究が自動音声認識(ASR)システムの評価指標としてワード誤り率(WER)の欠点について検討している。
werはリテラルな単語レベルの正確性のみを考慮しているため、意味距離(sd)やbertscoreのような意味的類似性に基づく新しい評価指標が開発されている。
しかし、これらの指標には、キーワードを過度に優先する傾向など、独自の制限があることがわかった。
H_evalは,意味的正当性と誤り率の両方を考慮し,WERとSDが不十分なシナリオにおいて高い性能を発揮する,ASRシステムのための新しいハイブリッド評価指標である。
BERTScoreに比べて軽量な計算のため、計量計算時間を49倍削減できる。
さらに,h_evalは下流nlpタスクと強く相関することを示した。
また, 計量計算時間を短縮するため, 蒸留技術を用いた高速かつ軽量な複数のモデルを構築した。
関連論文リスト
- Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Timestamped Embedding-Matching Acoustic-to-Word CTC ASR [2.842794675894731]
組込み型単語レベル接続性時間分類(CTC)自動音声認識(ASR)の学習方法について述べる。
単語タイムスタンプは、テスト時に二次モデルや強制アライメントプロセスに頼ることなく、ASRが単語セグメンテーションと単語混乱ネットワークを出力することを可能にする。
論文 参考訳(メタデータ) (2023-06-20T11:53:43Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Toward Zero Oracle Word Error Rate on the Switchboard Benchmark [0.3297645391680979]
スイッチボードベンチマーク」は自動音声認識(ASR)研究において非常によく知られたテストセットである。
この研究は、単語誤り率(WER)の大幅な改善を実証し、この評価についてあまり知られていない実践的考察を強調した。
商用のASRシステムでさえ5% WER以下に得点でき、研究システムの確立された記録は2.3%に低下する。
論文 参考訳(メタデータ) (2022-06-13T14:26:40Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - Semantic Distance: A New Metric for ASR Performance Analysis Towards
Spoken Language Understanding [26.958001571944678]
本稿では,asrシステムの代替評価指標として,新しい意味距離尺度(semdist)を提案する。
提案したメトリクスが,インテント認識,セマンティック解析,名前付きエンティティ認識など,さまざまな下流タスクに有効であることを実証する。
論文 参考訳(メタデータ) (2021-04-05T20:25:07Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。