論文の概要: Hypr: A comprehensive study for ASR hypothesis revising with a reference
corpus
- arxiv url: http://arxiv.org/abs/2309.09838v1
- Date: Mon, 18 Sep 2023 14:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 12:50:39.170116
- Title: Hypr: A comprehensive study for ASR hypothesis revising with a reference
corpus
- Title(参考訳): Hypr:参照コーパスを用いたASR仮説の総合的研究
- Authors: Yi-Wei Wang, Ke-Han Lu, Kuan-Yu Chen
- Abstract要約: 本研究では,ASR仮説修正データセット(HypR)を公表する。
HypRはいくつかの一般的なコーパスを含み、各発話に対して50の認識仮説を提供する。
我々は,音声認識結果の改訂における最近の研究の進展を示すために,いくつかの古典的,代表的手法を実装し,比較する。
- 参考スコア(独自算出の注目度): 11.43365699777826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of deep learning, automatic speech recognition (ASR) has
made significant progress. To further enhance the performance, revising
recognition results is one of the lightweight but efficient manners. Various
methods can be roughly classified into N-best reranking methods and error
correction models. The former aims to select the hypothesis with the lowest
error rate from a set of candidates generated by ASR for a given input speech.
The latter focuses on detecting recognition errors in a given hypothesis and
correcting these errors to obtain an enhanced result. However, we observe that
these studies are hardly comparable to each other as they are usually evaluated
on different corpora, paired with different ASR models, and even use different
datasets to train the models. Accordingly, we first concentrate on releasing an
ASR hypothesis revising (HypR) dataset in this study. HypR contains several
commonly used corpora (AISHELL-1, TED-LIUM 2, and LibriSpeech) and provides 50
recognition hypotheses for each speech utterance. The checkpoint models of the
ASR are also published. In addition, we implement and compare several classic
and representative methods, showing the recent research progress in revising
speech recognition results. We hope the publicly available HypR dataset can
become a reference benchmark for subsequent research and promote the school of
research to an advanced level.
- Abstract(参考訳): ディープラーニングの発展に伴い,自動音声認識(ASR)は大きな進歩を遂げた。
性能をさらに向上させるため、認識結果の修正は軽量だが効率的な方法の一つである。
様々な方法は n-best reranking method と error correction model に大別できる。
前者は、与えられた入力音声に対して、ASRによって生成される候補の集合から、最小誤差率の仮説を選択することを目的とする。
後者は、与えられた仮説における認識誤りの検出とこれらの誤りの修正に焦点を合わせ、強化された結果を得る。
しかしながら、これらの研究は、通常異なるコーパスで評価され、異なるASRモデルと組み合わせられ、異なるデータセットを使用してモデルをトレーニングするので、互いにほとんど比較できない。
そこで,本研究ではまず,ASR仮説修正データセット(HypR)のリリースに集中する。
HypRはいくつかの一般的なコーパス(AISHELL-1、TED-Lium 2、LibriSpeech)を含み、各発話に対して50の認識仮説を提供する。
ASRのチェックポイントモデルも公開されている。
また,いくつかの古典的手法と代表的手法を実装し比較し,音声認識結果の改訂に向けた最近の研究動向を示す。
公開のhyprデータセットが、その後の研究のリファレンスベンチマークになり、研究の分野を高度なレベルに促進できることを願っています。
関連論文リスト
- Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition
via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning [0.20999222360659603]
NoRefERは、自動音声認識(ASR)システムのための新しい基準のない品質指標である。
NoRefERは、ASRの複数の圧縮レベルからの仮説間の既知の品質関係を利用して、品質によるサンプル内仮説のランク付けを学習する。
以上の結果から,NoRefERは基準ベースメトリクスとそのサンプル内ランクと高い相関性を示し,基準のないASR評価やa/bテストの可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T21:26:19Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Cross-sentence Neural Language Models for Conversational Speech
Recognition [17.317583079824423]
本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。
また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
論文 参考訳(メタデータ) (2021-06-13T05:30:16Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。