論文の概要: An Integration of Pre-Trained Speech and Language Models for End-to-End
Speech Recognition
- arxiv url: http://arxiv.org/abs/2312.03668v1
- Date: Wed, 6 Dec 2023 18:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:01:30.198855
- Title: An Integration of Pre-Trained Speech and Language Models for End-to-End
Speech Recognition
- Title(参考訳): エンドツーエンド音声認識のための事前学習音声と言語モデルの統合
- Authors: Yukiya Hono, Koh Mitsuda, Tianyu Zhao, Kentaro Mitsui, Toshiaki
Wakatsuki, Kei Sawada
- Abstract要約: 本稿では,事前学習した音声表現モデルと大言語モデル(LLM)を統合して自動音声認識(ASR)を実現する可能性について検討する。
提案モデルでは,音声のプロンプトとしてテキストトークンを自動回帰的に生成することで,E2E ASRを実現する。
実験結果から,提案モデルは現代のE2E ASRモデルに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 13.537367346559037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in machine learning have made it possible to perform various text
and speech processing tasks, including automatic speech recognition (ASR), in
an end-to-end (E2E) manner. Since typical E2E approaches require large amounts
of training data and resources, leveraging pre-trained foundation models
instead of training from scratch is gaining attention. Although there have been
attempts to use pre-trained speech and language models in ASR, most of them are
limited to using either. This paper explores the potential of integrating a
pre-trained speech representation model with a large language model (LLM) for
E2E ASR. The proposed model enables E2E ASR by generating text tokens in an
autoregressive manner via speech representations as speech prompts, taking
advantage of the vast knowledge provided by the LLM. Furthermore, the proposed
model can incorporate remarkable developments for LLM utilization, such as
inference optimization and parameter-efficient domain adaptation. Experimental
results show that the proposed model achieves performance comparable to modern
E2E ASR models.
- Abstract(参考訳): 機械学習の進歩により、自動音声認識(ASR)を含む様々なテキストおよび音声処理タスクをエンドツーエンド(E2E)で実行できるようになった。
典型的なE2Eアプローチは大量のトレーニングデータとリソースを必要とするため、スクラッチからのトレーニングではなく、事前トレーニングされた基礎モデルを活用することが注目されている。
ASRには事前訓練された音声モデルと言語モデルを使用する試みがあるが、そのほとんどはどちらも使用に限られている。
本稿では,E2E ASR のための言語モデル (LLM) と事前学習した音声表現モデルを統合する可能性について検討する。
提案モデルでは,LLMが提供する膨大な知識を活用し,音声のプロンプトとしてテキストトークンを自動回帰的に生成することで,E2E ASRを実現する。
さらに,提案モデルでは,推論最適化やパラメータ効率のよい領域適応など,LLM利用のための顕著な開発を取り入れることができる。
実験結果から,提案モデルは現代のE2E ASRモデルに匹敵する性能を示した。
関連論文リスト
- SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - SLM: Bridge the thin gap between speech and text foundation models [45.319071954143325]
音声・言語モデル (SLM) は、事前訓練された基礎言語モデルと言語モデルを利用するマルチタスク、多言語、二重モーダルモデルである。
我々は、SLMは訓練に効率的であるが、異なるモダリティの基盤モデルで既に獲得されている強力な能力を継承することを示した。
論文 参考訳(メタデータ) (2023-09-30T02:27:45Z) - Exploring Energy-based Language Models with Different Architectures and
Training Methods for Speech Recognition [23.970716487502273]
エネルギーベース言語モデル(ELM)は、自然文の非正規化分布をパラメータ化する。
本稿では,エネルギ関数の異なるアーキテクチャと異なるトレーニング手法について検討し,音声認識におけるEMMの能力について検討する。
論文 参考訳(メタデータ) (2023-05-22T03:28:48Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - End-to-End Integration of Speech Recognition, Speech Enhancement, and
Self-Supervised Learning Representation [36.66970917185465]
本研究では,ロバスト音声認識をターゲットとしたエンドツーエンド(E2E)自動音声認識(ASR)モデルを提案する。
従来のE2E ASRモデルと比較して、提案したE2Eモデルは2つの重要なモジュールを統合する。
IRISモデルは、単一チャネルCHiME-4ベンチマークの文献で報告された最高の性能を達成する。
論文 参考訳(メタデータ) (2022-04-01T16:02:31Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。