論文の概要: Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study
- arxiv url: http://arxiv.org/abs/2307.06530v1
- Date: Thu, 13 Jul 2023 02:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 15:56:49.137381
- Title: Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study
- Title(参考訳): 大規模言語モデルの音声認識システムへの統合を探る:実証的研究
- Authors: Zeping Min, Jinbo Wang
- Abstract要約: 本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the integration of Large Language Models (LLMs) into
Automatic Speech Recognition (ASR) systems to improve transcription accuracy.
The increasing sophistication of LLMs, with their in-context learning
capabilities and instruction-following behavior, has drawn significant
attention in the field of Natural Language Processing (NLP). Our primary focus
is to investigate the potential of using an LLM's in-context learning
capabilities to enhance the performance of ASR systems, which currently face
challenges such as ambient noise, speaker accents, and complex linguistic
contexts. We designed a study using the Aishell-1 and LibriSpeech datasets,
with ChatGPT and GPT-4 serving as benchmarks for LLM capabilities.
Unfortunately, our initial experiments did not yield promising results,
indicating the complexity of leveraging LLM's in-context learning for ASR
applications. Despite further exploration with varied settings and models, the
corrected sentences from the LLMs frequently resulted in higher Word Error
Rates (WER), demonstrating the limitations of LLMs in speech applications. This
paper provides a detailed overview of these experiments, their results, and
implications, establishing that using LLMs' in-context learning capabilities to
correct potential errors in speech recognition transcriptions is still a
challenging task at the current stage.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) と自動音声認識 (ASR) システムを統合することにより,転写精度の向上を図る。
自然言語処理(NLP)分野において,LLMの高度化,文脈内学習能力,命令追従行動等が注目されている。
我々は,環境騒音,話者アクセント,複雑な言語文脈といった課題に直面しているasrシステムの性能向上のために,llmの文脈内学習機能を利用する可能性を検討することを目的とする。
Aishell-1 と LibriSpeech のデータセットを用いて,ChatGPT と GPT-4 を LLM 機能のベンチマークとして設計した。
残念ながら、我々の最初の実験では有望な結果が得られず、LLMのコンテキスト内学習をASRアプリケーションに活用することの複雑さが示唆された。
様々な設定やモデルによるさらなる探索にもかかわらず、LLMの修正文は高い単語誤り率(WER)をもたらし、LLMの音声応用における限界を示した。
本稿では,これらの実験の概要,結果,意味について概説し,音声認識文字起こしにおける潜在的な誤りを訂正するためにLLMの文脈内学習機能を利用することは,現在なお困難な課題であることを示す。
関連論文リスト
- Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Generative Speech Recognition Error Correction with Large Language
Models and Task-Activating Prompting [32.70214938434769]
本稿では,大規模言語モデル(LLM)の音声認識後処理機能について検討する。
我々は、ゼロショットと少数ショットのインコンテキスト学習と、新しいタスクアクティベーション・プロンプト法という、異なるプロンプト方式を評価する。
凍結LDMを用いた文脈内学習でのみ再構成を行うことで、ドメインチューニングLMによる再構成と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-27T13:36:03Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model
in End-to-End Speech Recognition [26.043533280932603]
命令調整型大言語モデル(LLM)とエンドツーエンド自動音声認識(ASR)の新たな統合を提案する。
本研究では,LLMのゼロショット機能を用いて,ASRの性能向上に寄与する言語情報を抽出する。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - Leveraging Large Language Models for Exploiting ASR Uncertainty [16.740712975166407]
大規模な言語モデルは、書き起こしのための既製の音声認識システムに依存するか、あるいは内蔵された音声モダリティを備える必要がある。
我々は,高い単語誤り率でLLMの発話意図を理解する能力を制限する音声意図分類タスクに取り組む。
我々は,誤り発生1-best仮説に代えて,ASR仮説のn-bestリストでLLMを推し進めることを提案する。
論文 参考訳(メタデータ) (2023-09-09T17:02:33Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。