論文の概要: Hybrid-SD ($\text{H}_{\text{SD}}$) : A new hybrid evaluation metric for
automatic speech recognition tasks
- arxiv url: http://arxiv.org/abs/2211.01722v1
- Date: Thu, 3 Nov 2022 11:23:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 14:04:06.118114
- Title: Hybrid-SD ($\text{H}_{\text{SD}}$) : A new hybrid evaluation metric for
automatic speech recognition tasks
- Title(参考訳): hybrid-sd (\text{h}_{\text{sd}}$) : 自動音声認識タスクのための新しいハイブリッド評価指標
- Authors: Zitha Sasindran, Harsha Yelchuri, Supreeth Rao and T. V. Prabhakar
- Abstract要約: 本稿では,意味的正当性と誤り率を考慮したASRシステムのハイブリッド評価指標であるHybrid-SD(textH_textSD$)を提案する。
実験の結果,SNanoBERTモデルはSRoBERTaより25.9倍小さく,38.8倍高速であることがわかった。
- 参考スコア(独自算出の注目度): 0.6117371161379209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many studies have examined the shortcomings of word error rate (WER) as an
evaluation metric for automatic speech recognition (ASR) systems, particularly
when used for spoken language understanding tasks such as intent recognition
and dialogue systems. In this paper, we propose Hybrid-SD
($\text{H}_{\text{SD}}$), a new hybrid evaluation metric for ASR systems that
takes into account both semantic correctness and error rate. To generate
sentence dissimilarity scores (SD), we built a fast and lightweight SNanoBERT
model using distillation techniques. Our experiments show that the SNanoBERT
model is 25.9x smaller and 38.8x faster than SRoBERTa while achieving
comparable results on well-known benchmarks. Hence, making it suitable for
deploying with ASR models on edge devices. We also show that
$\text{H}_{\text{SD}}$ correlates more strongly with downstream tasks such as
intent recognition and named-entity recognition (NER).
- Abstract(参考訳): 自動音声認識(asr)システムのための評価指標としての単語誤り率(wer)の欠点、特に意図認識や対話システムなどの音声言語理解タスクに用いられる場合の問題点について多くの研究が進められている。
本稿では,意味的正当性と誤り率の両方を考慮したASRシステムのための新しいハイブリッド評価指標であるHybrid-SD(\text{H}_{\text{SD}}$)を提案する。
文の相似性スコア(SD)を生成するために,蒸留技術を用いて高速かつ軽量なSNanoBERTモデルを構築した。
実験の結果,SNanoBERTモデルはSRoBERTaより25.9倍小さく,38.8倍高速であることがわかった。
したがって、エッジデバイスにASRモデルでデプロイするのに適している。
また、$\text{H}_{\text{SD}}$は、インテント認識や名前付き一致認識(NER)といった下流タスクと強く関連していることを示す。
関連論文リスト
- Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Timestamped Embedding-Matching Acoustic-to-Word CTC ASR [2.842794675894731]
組込み型単語レベル接続性時間分類(CTC)自動音声認識(ASR)の学習方法について述べる。
単語タイムスタンプは、テスト時に二次モデルや強制アライメントプロセスに頼ることなく、ASRが単語セグメンテーションと単語混乱ネットワークを出力することを可能にする。
論文 参考訳(メタデータ) (2023-06-20T11:53:43Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Toward Zero Oracle Word Error Rate on the Switchboard Benchmark [0.3297645391680979]
スイッチボードベンチマーク」は自動音声認識(ASR)研究において非常によく知られたテストセットである。
この研究は、単語誤り率(WER)の大幅な改善を実証し、この評価についてあまり知られていない実践的考察を強調した。
商用のASRシステムでさえ5% WER以下に得点でき、研究システムの確立された記録は2.3%に低下する。
論文 参考訳(メタデータ) (2022-06-13T14:26:40Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - Semantic Distance: A New Metric for ASR Performance Analysis Towards
Spoken Language Understanding [26.958001571944678]
本稿では,asrシステムの代替評価指標として,新しい意味距離尺度(semdist)を提案する。
提案したメトリクスが,インテント認識,セマンティック解析,名前付きエンティティ認識など,さまざまな下流タスクに有効であることを実証する。
論文 参考訳(メタデータ) (2021-04-05T20:25:07Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。