論文の概要: End-to-End Speech Recognition Contextualization with Large Language
Models
- arxiv url: http://arxiv.org/abs/2309.10917v1
- Date: Tue, 19 Sep 2023 20:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 13:26:03.635304
- Title: End-to-End Speech Recognition Contextualization with Large Language
Models
- Title(参考訳): 大規模言語モデルを用いたエンドツーエンド音声認識コンテキスト化
- Authors: Egor Lakomkin, Chunyang Wu, Yassir Fathullah, Ozlem Kalinli, Michael
L. Seltzer, Christian Fuegen
- Abstract要約: 本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。
音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 25.198480789044346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Large Language Models (LLMs) have garnered significant
attention from the research community due to their exceptional performance and
generalization capabilities. In this paper, we introduce a novel method for
contextualizing speech recognition models incorporating LLMs. Our approach
casts speech recognition as a mixed-modal language modeling task based on a
pretrained LLM. We provide audio features, along with optional text tokens for
context, to train the system to complete transcriptions in a decoder-only
fashion. As a result, the system is implicitly incentivized to learn how to
leverage unstructured contextual information during training. Our empirical
results demonstrate a significant improvement in performance, with a 6% WER
reduction when additional textual context is provided. Moreover, we find that
our method performs competitively and improve by 7.5% WER overall and 17% WER
on rare words against a baseline contextualized RNN-T system that has been
trained on more than twenty five times larger speech dataset. Overall, we
demonstrate that by only adding a handful number of trainable parameters via
adapters, we can unlock contextualized speech recognition capability for the
pretrained LLM while keeping the same text-only input functionality.
- Abstract(参考訳): 近年,Large Language Models (LLMs) は,その優れた性能と一般化能力から,研究コミュニティから大きな注目を集めている。
本稿では,LLMを取り入れた音声認識モデルのコンテキスト化手法を提案する。
本手法では,事前学習したllmに基づく混合モーダル言語モデリングタスクとして音声認識を行う。
我々は、音声機能と文脈の任意のテキストトークンを提供し、デコーダのみの方法でシステムの書き起こしを訓練する。
結果としてシステムは、トレーニング中に非構造化コンテキスト情報を活用する方法を学ぶために暗黙的にインセンティブを与えます。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
さらに,本手法は,20倍以上の音声データセットをトレーニングしたベースライン文脈化RNN-Tシステムに対して,レアワードに対して7.5%のWER,17%のWERで競争力と改善を行う。
全体としては、アダプタ経由で少数のトレーニング可能なパラメータを追加するだけで、同じテキストのみの入力機能を維持しながら、事前トレーニングされたllmのコンテクスト化音声認識機能をアンロックできることを実証する。
関連論文リスト
- Unified Speech-Text Pretraining for Spoken Dialog Modeling [42.59768604228263]
本研究は, 与えられた入力音声に関連付けられた有機韻律的特徴を持つコヒーレントな音声応答を生成するための, 広範囲な音声テキストLLMフレームワークを提案する。
提案手法では,LLMのチェイン・オブ・レーソン機能を利用した多段階音声文推論方式を用いる。
提案手法は,従来のベースラインとケースドベースラインの両方に優れ,自然な音声応答を生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Speak or Chat with Me: End-to-End Spoken Language Understanding System
with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。
本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文 参考訳(メタデータ) (2021-04-07T20:48:08Z) - Multitask Training with Text Data for End-to-End Speech Recognition [45.35605825009208]
本稿では,注目に基づくエンドツーエンド音声認識モデルに対するマルチタスク学習手法を提案する。
我々は、音声テキストとテキストのみのデータの両方でマルチタスクでトレーニングすることで、リスニング、アテンション、スペルモデルでデコーダを正規化する。
論文 参考訳(メタデータ) (2020-10-27T14:29:28Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。