論文の概要: Can Generative Large Language Models Perform ASR Error Correction?
- arxiv url: http://arxiv.org/abs/2307.04172v1
- Date: Sun, 9 Jul 2023 13:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:59:43.782519
- Title: Can Generative Large Language Models Perform ASR Error Correction?
- Title(参考訳): 生成型大規模言語モデルによるasr誤り訂正は可能か?
- Authors: Rao Ma, Mengjie Qian, Potsawee Manakul, Mark Gales, Kate Knill
- Abstract要約: ChatGPTは、ゼロショットまたは1ショット設定でASRエラー補正を実行する能力を検証した例である。
制約なし誤り訂正法とN-best制約付き誤り訂正法を提案する。
The results on a Conformer-Transducer model and the pre-trained Whisper model shows that we can largely improve the ASR system performance with error correct。
- 参考スコア(独自算出の注目度): 9.738972681488132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ASR error correction continues to serve as an important part of
post-processing for speech recognition systems. Traditionally, these models are
trained with supervised training using the decoding results of the underlying
ASR system and the reference text. This approach is computationally intensive
and the model needs to be re-trained when switching the underlying ASR model.
Recent years have seen the development of large language models and their
ability to perform natural language processing tasks in a zero-shot manner. In
this paper, we take ChatGPT as an example to examine its ability to perform ASR
error correction in the zero-shot or 1-shot settings. We use the ASR N-best
list as model input and propose unconstrained error correction and N-best
constrained error correction methods. Results on a Conformer-Transducer model
and the pre-trained Whisper model show that we can largely improve the ASR
system performance with error correction using the powerful ChatGPT model.
- Abstract(参考訳): ASR誤り訂正は、音声認識システムにおける後処理の重要な部分であり続けている。
伝統的にこれらのモデルは、基礎となるasrシステムと参照テキストのデコード結果を使用して教師付きトレーニングでトレーニングされる。
このアプローチは計算集約的であり、基礎となるASRモデルを切り替える際にモデルを再訓練する必要がある。
近年,大規模言語モデルの開発や,自然言語処理タスクをゼロショットで行う能力が注目されている。
本稿では,チャットgptを実例とし,ゼロショットまたは1ショット設定でasr誤り訂正を行う能力について検討する。
我々は,asr n-bestリストをモデル入力として使用し,制約なし誤り訂正とn-best制約付き誤り補正法を提案する。
コンフォーメータトランスデューサモデルと事前学習されたwhisperモデルの結果から,強力なchatgptモデルを用いた誤り訂正により,asrシステムの性能が大幅に向上することが示された。
関連論文リスト
- ASR Error Correction using Large Language Models [4.75940708384553]
誤り訂正(EC)モデルは、自動音声認識(ASR)転写の精製において重要な役割を果たす。
本研究は,多種多様なシナリオにおける誤り訂正のための大規模言語モデル (LLM) の使用について検討する。
論文 参考訳(メタデータ) (2024-09-14T23:33:38Z) - Benchmarking Japanese Speech Recognition on ASR-LLM Setups with Multi-Pass Augmented Generative Error Correction [34.32834323898953]
自動音声認識(ASR)のための生成誤り訂正(GER)は、ASRの誤りに対処するための意味的および音声学的改善を提供することを目的としている。
本研究では,LLMをベースとしたGERが日本語処理能力の強化と拡張を実現し,0.9-2.6kテキスト発声による日本語ASRのGERベンチマークを初めて提示する。
また、入力側で複数のシステム仮説を統合し、出力側で複数のLSMを補正し、それらをマージすることで、新しいマルチパス拡張生成誤差補正(MPA GER)を導入する。
論文 参考訳(メタデータ) (2024-08-29T00:18:12Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。