論文の概要: NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition
via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2306.12577v1
- Date: Wed, 21 Jun 2023 21:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 16:04:46.001426
- Title: NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition
via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning
- Title(参考訳): norefer: 半教師付き言語モデルとコントラスト学習による自動音声認識のための参照なし品質指標
- Authors: Kamer Ali Yuksel, Thiago Ferreira, Golara Javadi, Mohamed
El-Badrashiny, Ahmet Gunduz
- Abstract要約: NoRefERは、自動音声認識(ASR)システムのための新しい基準のない品質指標である。
NoRefERは、ASRの複数の圧縮レベルからの仮説間の既知の品質関係を利用して、品質によるサンプル内仮説のランク付けを学習する。
以上の結果から,NoRefERは基準ベースメトリクスとそのサンプル内ランクと高い相関性を示し,基準のないASR評価やa/bテストの可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.20999222360659603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces NoRefER, a novel referenceless quality metric for
automatic speech recognition (ASR) systems. Traditional reference-based metrics
for evaluating ASR systems require costly ground-truth transcripts. NoRefER
overcomes this limitation by fine-tuning a multilingual language model for
pair-wise ranking ASR hypotheses using contrastive learning with Siamese
network architecture. The self-supervised NoRefER exploits the known quality
relationships between hypotheses from multiple compression levels of an ASR for
learning to rank intra-sample hypotheses by quality, which is essential for
model comparisons. The semi-supervised version also uses a referenced dataset
to improve its inter-sample quality ranking, which is crucial for selecting
potentially erroneous samples. The results indicate that NoRefER correlates
highly with reference-based metrics and their intra-sample ranks, indicating a
high potential for referenceless ASR evaluation or a/b testing.
- Abstract(参考訳): 本稿では,自動音声認識(ASR)システムのための新しい基準のない品質指標であるNoRefERを紹介する。
ASRシステムを評価するための従来の基準ベースのメトリクスは、コストがかかる地上の文字起こしを必要とする。
NoRefERはこの制限を克服し、シームズネットワークアーキテクチャによる対照的な学習を用いて、ペアワイズなASR仮説の多言語言語モデルを微調整する。
自己教師型NoRefERは、ASRの複数の圧縮レベルからの仮説間の既知の品質関係を利用して、品質によるサンプル内仮説のランク付けを学習する。
半教師付きバージョンでは、参照データセットを使用して、サンプル間の品質ランキングを改善している。
その結果、NoRefERは基準ベースの指標とサンプル内ランクと高い相関を示し、基準のないASR評価やa/bテストの可能性を示している。
関連論文リスト
- Word-Level ASR Quality Estimation for Efficient Corpus Sampling and
Post-Editing through Analyzing Attentions of a Reference-Free Metric [5.592917884093537]
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。
NoRefERメトリックの能力は、単語レベルの誤りを識別し、ASR仮説を補うのに役立つ。
論文 参考訳(メタデータ) (2024-01-20T16:48:55Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - HypR: A comprehensive study for ASR hypothesis revising with a reference corpus [10.173199736362486]
本研究は,ASR仮説修正データセット(HypR)の提供に焦点を当てた。
HypRはいくつかの一般的なコーパスを含み、各発話に対して50の認識仮説を提供する。
さらに,音声認識結果の改訂における最近の研究の進展を示すために,いくつかの古典的,代表的手法の実装と比較を行った。
論文 参考訳(メタデータ) (2023-09-18T14:55:21Z) - A Reference-less Quality Metric for Automatic Speech Recognition via
Contrastive-Learning of a Multi-Language Model with Self-Supervision [0.20999222360659603]
本研究は,音声データセット上での異なるASRモデルの性能を比較するための基準のない品質指標を提案する。
ASR仮説の質を推定するために、事前訓練された言語モデル(LM)を自己教師付き学習方式でコントラスト学習により微調整する。
提案した基準レス計量は、すべての実験において最先端の多言語LMからWERスコアとそれらのランクとの相関をはるかに高める。
論文 参考訳(メタデータ) (2023-06-21T21:33:39Z) - Factual Consistency Oriented Speech Recognition [23.754107608608106]
提案フレームワークは, ASR の仮説と接地真実の整合性を最大化するために, ASR モデルを最適化する。
提案手法を用いてASRモデルのトレーニングを行うことにより,会話要約の事実整合性によって,音声要約品質が向上することが示されている。
論文 参考訳(メタデータ) (2023-02-24T00:01:41Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。