論文の概要: N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses
and Constrained Decoding Space
- arxiv url: http://arxiv.org/abs/2303.00456v2
- Date: Thu, 1 Jun 2023 23:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 20:01:05.057715
- Title: N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses
and Constrained Decoding Space
- Title(参考訳): N-best T5:複数入力仮説と制約付き復号空間を用いたロバストASR誤り訂正
- Authors: Rao Ma, Mark J. F. Gales, Kate M. Knill, Mengjie Qian
- Abstract要約: 本稿では,T5モデルから微調整を行い,モデル入力としてASR N-best Listを利用する,新しいN-best T5モデルを提案する。
事前学習された言語モデルから知識を伝達し、ASR復号化空間からより豊かな情報を得ることにより、提案手法は強力な Conformer-Transducer ベースラインより優れている。
- 参考スコア(独自算出の注目度): 40.402050390096456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Error correction models form an important part of Automatic Speech
Recognition (ASR) post-processing to improve the readability and quality of
transcriptions. Most prior works use the 1-best ASR hypothesis as input and
therefore can only perform correction by leveraging the context within one
sentence. In this work, we propose a novel N-best T5 model for this task, which
is fine-tuned from a T5 model and utilizes ASR N-best lists as model input. By
transferring knowledge from the pre-trained language model and obtaining richer
information from the ASR decoding space, the proposed approach outperforms a
strong Conformer-Transducer baseline. Another issue with standard error
correction is that the generation process is not well-guided. To address this a
constrained decoding process, either based on the N-best list or an ASR
lattice, is used which allows additional information to be propagated.
- Abstract(参考訳): 誤り訂正モデルは、書き起こしの可読性と品質を改善するために、自動音声認識(ASR)後処理の重要な部分を形成する。
ほとんどの先行研究は1-best asr仮説を入力として使用しており、1文内の文脈を活用することでのみ修正を行うことができる。
本研究では,T5モデルから微調整を行い,モデル入力としてASR N-best Listを利用する,新しいN-best T5モデルを提案する。
事前学習された言語モデルから知識を転送し、asr復号空間からよりリッチな情報を得ることにより、提案手法は強いコンフォーメータ・トランスデューサベースラインを上回る。
標準エラー訂正のもう1つの問題は、生成プロセスが適切に制御されていないことである。
これを解決するために、N-bestリストまたはASR格子に基づく制約付き復号プロセスが使用され、追加情報を伝播することができる。
関連論文リスト
- ASR Error Correction using Large Language Models [4.75940708384553]
誤り訂正(EC)モデルは、自動音声認識(ASR)転写の精製において重要な役割を果たす。
本研究は,多種多様なシナリオにおける誤り訂正のための大規模言語モデル (LLM) の使用について検討する。
論文 参考訳(メタデータ) (2024-09-14T23:33:38Z) - UCorrect: An Unsupervised Framework for Automatic Speech Recognition
Error Correction [18.97378605403447]
ASR誤り訂正のための教師なし検出器・ジェネレータ・セレクタ・フレームワークであるUCorrectを提案する。
パブリックAISHELL-1データセットとWenetSpeechデータセットの実験は、UCorrectの有効性を示している。
論文 参考訳(メタデータ) (2024-01-11T06:30:07Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - N-Best ASR Transformer: Enhancing SLU Performance using Multiple ASR
Hypotheses [0.0]
Spoken Language Understanding (SLU)は、音声をダイアログやスロットのような意味構造に解析する。
提案手法は,低データ体制下での先行技術よりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T17:29:00Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Improving Sequence-to-Sequence Pre-training via Sequence Span Rewriting [54.03356526990088]
本稿では,Sequence Span Rewriting (SSR) を自己教師付きシーケンス・ツー・シーケンス(seq2seq)事前学習目的として提案する。
SSRは、モデルに不完全なスパンを書き直すように監督することで、より細かい学習信号をテキスト表現に提供します。
各種Seq2seqタスクのT5モデルによる実験により,SSRはSeq2seq事前学習を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-01-02T10:27:11Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。