論文の概要: ASR-EC Benchmark: Evaluating Large Language Models on Chinese ASR Error Correction
- arxiv url: http://arxiv.org/abs/2412.03075v1
- Date: Wed, 04 Dec 2024 06:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:07:16.821639
- Title: ASR-EC Benchmark: Evaluating Large Language Models on Chinese ASR Error Correction
- Title(参考訳): ASR-ECベンチマーク:中国のASR誤り訂正に基づく大規模言語モデルの評価
- Authors: Victor Junqiu Wei, Weicheng Wang, Di Jiang, Yuanfeng Song, Lu Wang,
- Abstract要約: 本稿では,中国語におけるASR誤り訂正について検討する。
我々の知る限りでは、中国初のASRエラー訂正ベンチマークである。
近年の言語モデル(LLM)の進歩に触発されて,LLMのパワーを利用してASRの誤りを訂正する方法を検討する。
- 参考スコア(独自算出の注目度): 20.04650481108717
- License:
- Abstract: Automatic speech Recognition (ASR) is a fundamental and important task in the field of speech and natural language processing. It is an inherent building block in many applications such as voice assistant, speech translation, etc. Despite the advancement of ASR technologies in recent years, it is still inevitable for modern ASR systems to have a substantial number of erroneous recognition due to environmental noise, ambiguity, etc. Therefore, the error correction in ASR is crucial. Motivated by this, this paper studies ASR error correction in the Chinese language, which is one of the most popular languages and enjoys a large number of users in the world. We first create a benchmark dataset named \emph{ASR-EC} that contains a wide spectrum of ASR errors generated by industry-grade ASR systems. To the best of our knowledge, it is the first Chinese ASR error correction benchmark. Then, inspired by the recent advances in \emph{large language models (LLMs)}, we investigate how to harness the power of LLMs to correct ASR errors. We apply LLMs to ASR error correction in three paradigms. The first paradigm is prompting, which is further categorized as zero-shot, few-shot, and multi-step. The second paradigm is finetuning, which finetunes LLMs with ASR error correction data. The third paradigm is multi-modal augmentation, which collectively utilizes the audio and ASR transcripts for error correction. Extensive experiments reveal that prompting is not effective for ASR error correction. Finetuning is effective only for a portion of LLMs. Multi-modal augmentation is the most effective method for error correction and achieves state-of-the-art performance.
- Abstract(参考訳): 音声認識(ASR)は,音声処理と自然言語処理の分野における基本的かつ重要な課題である。
これは、音声アシスタント、音声翻訳など、多くのアプリケーションにおいて固有のビルディングブロックである。
近年のASR技術の進歩にもかかわらず、環境騒音やあいまいさなどにより、現代のASRシステムがかなりの数の誤認識を持つことは避けられない。
したがって、ASRにおける誤り訂正は重要である。
そこで本研究では,最も普及している言語の一つである中国語のASR誤り訂正について検討し,多くのユーザを享受している。
まず、業界グレードのASRシステムによって生成される幅広いASRエラーを含むベンチマークデータセット「emph{ASR-EC}」を作成する。
我々の知る限りでは、中国初のASRエラー訂正ベンチマークである。
次に,近年のemph{large language model (LLMs) の進歩に触発されて,LLMのパワーを利用してASRエラーを補正する方法を検討する。
3つのパラダイムで ASR 誤り訂正に LLM を適用する。
最初のパラダイムはプロンプトであり、ゼロショット、少数ショット、マルチステップに分類される。
第2のパラダイムは微調整であり、ALRエラー訂正データでLSMを微調整する。
第3のパラダイムはマルチモーダル拡張であり、オーディオとASRの書き起こしをまとめて誤り訂正に利用する。
大規模な実験では、プロンプトがASRの誤り訂正に有効でないことが明らかになった。
微細加工はLLMの一部にのみ有効である。
マルチモーダル拡張は、誤り訂正の最も効果的な方法であり、最先端の性能を達成する。
関連論文リスト
- Benchmarking Japanese Speech Recognition on ASR-LLM Setups with Multi-Pass Augmented Generative Error Correction [34.32834323898953]
自動音声認識(ASR)のための生成誤り訂正(GER)は、ASRの誤りに対処するための意味的および音声学的改善を提供することを目的としている。
本研究では,LLMをベースとしたGERが日本語処理能力の強化と拡張を実現し,0.9-2.6kテキスト発声による日本語ASRのGERベンチマークを初めて提示する。
また、入力側で複数のシステム仮説を統合し、出力側で複数のLSMを補正し、それらをマージすることで、新しいマルチパス拡張生成誤差補正(MPA GER)を導入する。
論文 参考訳(メタデータ) (2024-08-29T00:18:12Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition [21.516152600963775]
Denoising LM (DLM) は大量の合成データで訓練された$textitscaled$エラー補正モデルである。
DLMは、$textittest-clean$で1.5%のワードエラー率(WER)、$textittest-other$で3.3%のWERを達成する。
論文 参考訳(メタデータ) (2024-05-24T05:05:12Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Can Generative Large Language Models Perform ASR Error Correction? [16.246481696611117]
生成型大規模言語モデル(LLM)は、幅広い自然言語処理タスクに適用されている。
本稿では, ASR 誤り訂正のための生成 LLM である ChatGPT を用いて検討する。
実験により、このジェネレーティブLLMアプローチは、2つの異なる最先端のASRアーキテクチャの性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-09T13:38:25Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - ASR Error Correction and Domain Adaptation Using Machine Translation [32.27379508770736]
機械翻訳によるASR誤り訂正のための領域適応手法を提案する。
Google ASR出力における単語誤り率の絶対的改善とBLEUスコアの4点絶対的改善を観察した。
論文 参考訳(メタデータ) (2020-03-13T20:05:38Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。