論文の概要: Can Generative Large Language Models Perform ASR Error Correction?
- arxiv url: http://arxiv.org/abs/2307.04172v2
- Date: Fri, 29 Sep 2023 07:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 17:55:51.095447
- Title: Can Generative Large Language Models Perform ASR Error Correction?
- Title(参考訳): 生成型大規模言語モデルによるasr誤り訂正は可能か?
- Authors: Rao Ma, Mengjie Qian, Potsawee Manakul, Mark Gales, Kate Knill
- Abstract要約: 生成型大規模言語モデル(LLM)は、幅広い自然言語処理タスクに適用されている。
本稿では, ASR 誤り訂正のための生成 LLM である ChatGPT を用いて検討する。
実験により、このジェネレーティブLLMアプローチは、2つの異なる最先端のASRアーキテクチャの性能向上をもたらすことが示された。
- 参考スコア(独自算出の注目度): 16.246481696611117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ASR error correction is an interesting option for post processing speech
recognition system outputs. These error correction models are usually trained
in a supervised fashion using the decoding results of a target ASR system. This
approach can be computationally intensive and the model is tuned to a specific
ASR system. Recently generative large language models (LLMs) have been applied
to a wide range of natural language processing tasks, as they can operate in a
zero-shot or few shot fashion. In this paper we investigate using ChatGPT, a
generative LLM, for ASR error correction. Based on the ASR N-best output, we
propose both unconstrained and constrained, where a member of the N-best list
is selected, approaches. Additionally, zero and 1-shot settings are evaluated.
Experiments show that this generative LLM approach can yield performance gains
for two different state-of-the-art ASR architectures, transducer and
attention-encoder-decoder based, and multiple test sets.
- Abstract(参考訳): ASR誤り訂正はポスト処理音声認識システムの出力に興味深い選択肢である。
これらの誤り訂正モデルは、通常、ターゲットASRシステムの復号結果を用いて教師あり方式で訓練される。
このアプローチは計算集約的で、モデルは特定のASRシステムに調整される。
近年,多種多様な自然言語処理タスクに対して,ゼロショットあるいは少数ショットで動作可能な生成型大規模言語モデル(llm)が適用されている。
本稿では, ASR 誤り訂正のための生成 LLM である ChatGPT を用いて検討する。
ASR N-best 出力に基づいて、N-best リストのメンバーが選択された場合、非制約と制約の両方を提案する。
さらに、ゼロと1ショットの設定も評価される。
実験により、このジェネレーティブLLMアプローチは、2つの異なる最先端のASRアーキテクチャ、トランスデューサとアテンションエンコーダ-デコーダベース、および複数のテストセットの性能向上が得られることが示された。
関連論文リスト
- Prompt Optimization via Adversarial In-Context Learning [53.10544913649934]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - ASR Error Correction and Domain Adaptation Using Machine Translation [32.27379508770736]
機械翻訳によるASR誤り訂正のための領域適応手法を提案する。
Google ASR出力における単語誤り率の絶対的改善とBLEUスコアの4点絶対的改善を観察した。
論文 参考訳(メタデータ) (2020-03-13T20:05:38Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。