論文の概要: A Comparative Study of LLM-based ASR and Whisper in Low Resource and Code Switching Scenario
- arxiv url: http://arxiv.org/abs/2412.00721v2
- Date: Wed, 04 Dec 2024 06:23:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 11:47:17.624200
- Title: A Comparative Study of LLM-based ASR and Whisper in Low Resource and Code Switching Scenario
- Title(参考訳): 低資源・コードスイッチングシナリオにおけるLLMベースASRとWhisperの比較検討
- Authors: Zheshu Song, Ziyang Ma, Yifan Yang, Jianheng Zhuo, Xie Chen,
- Abstract要約: 大規模言語モデル(LLM)は、様々なNLPタスクにまたがる例外的なパフォーマンスを誇示している。
低リソース環境下での音声認識の課題に対処する可能性については、未検討のままである。
- 参考スコア(独自算出の注目度): 9.290091297389033
- License:
- Abstract: Large Language Models (LLMs) have showcased exceptional performance across diverse NLP tasks, and their integration with speech encoder is rapidly emerging as a dominant trend in the Automatic Speech Recognition (ASR) field. Previous works mainly concentrated on leveraging LLMs for speech recognition in English and Chinese. However, their potential for addressing speech recognition challenges in low resource settings remains underexplored. Hence, in this work, we aim to explore the capability of LLMs in low resource ASR and Mandarin-English code switching ASR. We also evaluate and compare the recognition performance of LLM-based ASR systems against Whisper model. Extensive experiments demonstrate that LLM-based ASR yields a relative gain of 12.8\% over the Whisper model in low resource ASR while Whisper performs better in Mandarin-English code switching ASR. We hope that this study could shed light on ASR for low resource scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は多様なNLPタスクにまたがって異常な性能を示しており、音声認識(ASR)分野において音声エンコーダとの統合が主流となっている。
それまでの研究は主に、LLMを英語と中国語の音声認識に活用することに集中していた。
しかし,低リソース環境下での音声認識の課題に対処する可能性については,未検討のままである。
そこで本研究では,低リソースASRおよびマンダリン-英語コードスイッチングASRにおけるLLMの能力について検討する。
また,LLMに基づくASRシステムのWhisperモデルに対する認識性能の評価と比較を行った。
大規模な実験により、LLMベースのASRは低リソースのASRにおいてWhisperモデルよりも12.8\%向上し、一方、Whisperはマンダリン英語のコードスイッチングASRよりも優れた性能を示した。
この研究が低リソースシナリオのASRに光を当てることを願っている。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。
これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation [15.520180125182756]
近年,大規模言語モデル(LLM)への音声情報統合の進歩により,音声認識(ASR)の精度が大幅に向上した。
既存の手法はアクセントのような様々な音響条件下での音声エンコーダの能力に制約されることが多い。
LA-RAGは、LLMベースのASRのための新しいRAGパラダイムである。
論文 参考訳(メタデータ) (2024-09-13T07:28:47Z) - SALSA: Speedy ASR-LLM Synchronous Aggregation [40.91241351045586]
本研究では,ASRのデコーダ層をLLMデコーダに結合し,両デコーダを同期的に進行させるSALSAを提案する。
FLEURSベンチマークでは,8つの低リソース言語上でSALSAを評価し,最大38%のWER削減を実現した。
論文 参考訳(メタデータ) (2024-08-29T14:00:57Z) - Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models [21.85677682584916]
投機的音声認識(SSR)
本稿では、RNN-Transducer-based ASRシステムと音声処理言語モデル(LM)を組み合わせたSSRモデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T16:52:55Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。