論文の概要: It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2402.05457v1
- Date: Thu, 8 Feb 2024 07:21:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:21:49.068256
- Title: It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition
- Title(参考訳): 音声認識のための大規模言語モデルに音響情報を融合
- Authors: Chen Chen, Ruizhe Li, Yuchen Hu, Sabato Marco Siniscalchi, Pin-Yu
Chen, Ensiong Chng, Chao-Han Huck Yang
- Abstract要約: 大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
- 参考スコア(独自算出の注目度): 70.77292069313154
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent studies have successfully shown that large language models (LLMs) can
be successfully used for generative error correction (GER) on top of the
automatic speech recognition (ASR) output. Specifically, an LLM is utilized to
carry out a direct mapping from the N-best hypotheses list generated by an ASR
system to the predicted output transcription. However, despite its
effectiveness, GER introduces extra data uncertainty since the LLM is trained
without taking into account acoustic information available in the speech
signal. In this work, we aim to overcome such a limitation by infusing acoustic
information before generating the predicted transcription through a novel late
fusion solution termed Uncertainty-Aware Dynamic Fusion (UADF). UADF is a
multimodal fusion approach implemented into an auto-regressive decoding process
and works in two stages: (i) It first analyzes and calibrates the token-level
LLM decision, and (ii) it then dynamically assimilates the information from the
acoustic modality. Experimental evidence collected from various ASR tasks shows
that UADF surpasses existing fusion mechanisms in several ways. It yields
significant improvements in word error rate (WER) while mitigating data
uncertainty issues in LLM and addressing the poor generalization relied with
sole modality during fusion. We also demonstrate that UADF seamlessly adapts to
audio-visual speech recognition.
- Abstract(参考訳): 近年の研究では,大規模言語モデル(LLM)が自動音声認識(ASR)出力上で生成誤り訂正(GER)に有効であることが示された。
具体的には、LSMを用いて、ASRシステムによって生成されたN-best仮説リストから予測出力文字への直接マッピングを行う。
しかし、その効果にもかかわらず、GERはLLMが音声信号で利用可能な音響情報を考慮せずに訓練されるため、余分なデータ不確実性を導入する。
本研究では、不確実性認識動的融合(uadf)と呼ばれる新しい後期融合溶液を用いて、予測された転写を生成する前に音響情報を使用し、その制限を克服することを目的とする。
UADFは自動回帰復号化プロセスに実装されたマルチモーダル融合方式であり、以下の2段階で動作する。
(i)トークンレベルのllm決定を最初に分析し、コーディネートし、
(ii)音響モダリティから情報を動的に同化する。
様々なASRタスクから収集された実験的証拠は、UADFがいくつかの方法で既存の核融合機構を超えることを示している。
ワードエラー率 (WER) はLLMにおけるデータ不確実性の問題を軽減するとともに, 融合時のみのモダリティに依存した一般化に対処しながら, 大幅に向上する。
また,UADFが音声・視覚音声認識にシームレスに適応することを示す。
関連論文リスト
- Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models [16.920823078873095]
仮想アシスタント(VA)とのフォローアップ会話により、ユーザはキーワードを使って繰り返し呼び出すことなく、VAとシームレスに対話できる。
本稿では,従来の音声文脈とASRの不確実性との連成モデルにより,この手法が大きな利益をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-28T19:43:43Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Whispering LLaMA: A Cross-Modal Generative Error Correction Framework
for Speech Recognition [10.62060432965311]
自動音声認識(ASR)における生成誤り訂正のための新しいクロスモーダル融合手法を提案する。
提案手法は,音響情報と外部言語表現の両方を利用して,正確な音声の書き起こしコンテキストを生成する。
論文 参考訳(メタデータ) (2023-10-10T09:04:33Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。