論文の概要: Can Generative Large Language Models Perform ASR Error Correction?
- arxiv url: http://arxiv.org/abs/2307.04172v1
- Date: Sun, 9 Jul 2023 13:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:59:43.782519
- Title: Can Generative Large Language Models Perform ASR Error Correction?
- Title(参考訳): 生成型大規模言語モデルによるasr誤り訂正は可能か?
- Authors: Rao Ma, Mengjie Qian, Potsawee Manakul, Mark Gales, Kate Knill
- Abstract要約: ChatGPTは、ゼロショットまたは1ショット設定でASRエラー補正を実行する能力を検証した例である。
制約なし誤り訂正法とN-best制約付き誤り訂正法を提案する。
The results on a Conformer-Transducer model and the pre-trained Whisper model shows that we can largely improve the ASR system performance with error correct。
- 参考スコア(独自算出の注目度): 9.738972681488132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ASR error correction continues to serve as an important part of
post-processing for speech recognition systems. Traditionally, these models are
trained with supervised training using the decoding results of the underlying
ASR system and the reference text. This approach is computationally intensive
and the model needs to be re-trained when switching the underlying ASR model.
Recent years have seen the development of large language models and their
ability to perform natural language processing tasks in a zero-shot manner. In
this paper, we take ChatGPT as an example to examine its ability to perform ASR
error correction in the zero-shot or 1-shot settings. We use the ASR N-best
list as model input and propose unconstrained error correction and N-best
constrained error correction methods. Results on a Conformer-Transducer model
and the pre-trained Whisper model show that we can largely improve the ASR
system performance with error correction using the powerful ChatGPT model.
- Abstract(参考訳): ASR誤り訂正は、音声認識システムにおける後処理の重要な部分であり続けている。
伝統的にこれらのモデルは、基礎となるasrシステムと参照テキストのデコード結果を使用して教師付きトレーニングでトレーニングされる。
このアプローチは計算集約的であり、基礎となるASRモデルを切り替える際にモデルを再訓練する必要がある。
近年,大規模言語モデルの開発や,自然言語処理タスクをゼロショットで行う能力が注目されている。
本稿では,チャットgptを実例とし,ゼロショットまたは1ショット設定でasr誤り訂正を行う能力について検討する。
我々は,asr n-bestリストをモデル入力として使用し,制約なし誤り訂正とn-best制約付き誤り補正法を提案する。
コンフォーメータトランスデューサモデルと事前学習されたwhisperモデルの結果から,強力なchatgptモデルを用いた誤り訂正により,asrシステムの性能が大幅に向上することが示された。
関連論文リスト
- Prompt Optimization via Adversarial In-Context Learning [53.10544913649934]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - ASR Error Correction and Domain Adaptation Using Machine Translation [32.27379508770736]
機械翻訳によるASR誤り訂正のための領域適応手法を提案する。
Google ASR出力における単語誤り率の絶対的改善とBLEUスコアの4点絶対的改善を観察した。
論文 参考訳(メタデータ) (2020-03-13T20:05:38Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。