論文の概要: Generative error correction for code-switching speech recognition using
large language models
- arxiv url: http://arxiv.org/abs/2310.13013v1
- Date: Tue, 17 Oct 2023 14:49:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-29 16:11:49.604487
- Title: Generative error correction for code-switching speech recognition using
large language models
- Title(参考訳): 大規模言語モデルを用いた符号スイッチング音声認識における誤り生成
- Authors: Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Hexin Liu, Sabato Marco
Siniscalchi, Eng Siong Chng
- Abstract要約: コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
- 参考スコア(独自算出の注目度): 49.06203730433107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CS) speech refers to the phenomenon of mixing two or more
languages within the same sentence. Despite the recent advances in automatic
speech recognition (ASR), CS-ASR is still a challenging task ought to the
grammatical structure complexity of the phenomenon and the data scarcity of
specific training corpus. In this work, we propose to leverage large language
models (LLMs) and lists of hypotheses generated by an ASR to address the CS
problem. Specifically, we first employ multiple well-trained ASR models for
N-best hypotheses generation, with the aim of increasing the diverse and
informative elements in the set of hypotheses. Next, we utilize the LLMs to
learn the hypotheses-to-transcription (H2T) mapping by adding a trainable
low-rank adapter. Such a generative error correction (GER) method directly
predicts the accurate transcription according to its expert linguistic
knowledge and N-best hypotheses, resulting in a paradigm shift from the
traditional language model rescoring or error correction techniques.
Experimental evidence demonstrates that GER significantly enhances CS-ASR
accuracy, in terms of reduced mixed error rate (MER). Furthermore, LLMs show
remarkable data efficiency for H2T learning, providing a potential solution to
the data scarcity problem of CS-ASR in low-resource languages.
- Abstract(参考訳): コードスイッチング(英: Code-switching、CS)とは、同じ文中に複数の言語を混ぜる現象である。
近年の音声認識(ASR)の進歩にもかかわらず、CS-ASRは、この現象の文法的構造複雑さと特定の訓練コーパスのデータ不足のために、依然として困難な課題である。
本研究では,大規模言語モデル(LLM)とASRが生成する仮説のリストを利用してCS問題に対処することを提案する。
具体的には,n-best仮説生成のために複数の訓練されたasrモデルを用い,仮説集合の多様かつ情報的な要素を増加させることを目標とした。
次に、llmを用いて、学習可能な低ランクアダプタを追加して、h2tマッピングを学習する。
このような生成誤り訂正法(GER)は、その専門的な言語知識とN-best仮説に基づいて正確な転写を直接予測し、従来の言語モデル再構成や誤り訂正技術からパラダイムシフトする。
GERは混合誤り率(MER)の低減の観点からCS-ASRの精度を著しく向上することを示す実験的証拠である。
さらに、LLMはH2T学習において顕著なデータ効率を示し、低リソース言語におけるCS-ASRのデータ不足問題に対する潜在的な解決策を提供する。
関連論文リスト
- Benchmarking Japanese Speech Recognition on ASR-LLM Setups with Multi-Pass Augmented Generative Error Correction [34.32834323898953]
自動音声認識(ASR)のための生成誤り訂正(GER)は、ASRの誤りに対処するための意味的および音声学的改善を提供することを目的としている。
本研究では,LLMをベースとしたGERが日本語処理能力の強化と拡張を実現し,0.9-2.6kテキスト発声による日本語ASRのGERベンチマークを初めて提示する。
また、入力側で複数のシステム仮説を統合し、出力側で複数のLSMを補正し、それらをマージすることで、新しいマルチパス拡張生成誤差補正(MPA GER)を導入する。
論文 参考訳(メタデータ) (2024-08-29T00:18:12Z) - Listen Again and Choose the Right Answer: A New Paradigm for Automatic Speech Recognition with Large Language Models [41.997517537042434]
大言語モデル(LLM)は自動音声認識(ASR)のための生成誤り訂正(GER)を促進した
本稿では,ASR生成誤り訂正のための新しいパラダイムであるClozeGERを提案する。
論文 参考訳(メタデータ) (2024-05-16T12:05:45Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Boosting Chinese ASR Error Correction with Dynamic Error Scaling
Mechanism [27.09416337926635]
現在の主流モデルは、しばしば単語レベルの特徴と音声情報を効果的に活用するのに苦労する。
本稿では,音素の誤りを検知し,訂正する動的エラースケーリング機構を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-07T09:19:59Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。