Fugu-MT 論文翻訳(概要): An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition

論文の概要: An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition

arxiv url: http://arxiv.org/abs/2312.03668v1
Date: Wed, 6 Dec 2023 18:34:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 14:01:30.198855
Title: An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition
Title（参考訳）: エンドツーエンド音声認識のための事前学習音声と言語モデルの統合
Authors: Yukiya Hono, Koh Mitsuda, Tianyu Zhao, Kentaro Mitsui, Toshiaki Wakatsuki, Kei Sawada
Abstract要約: 本稿では,事前学習した音声表現モデルと大言語モデル(LLM)を統合して自動音声認識(ASR)を実現する可能性について検討する。提案モデルでは,音声のプロンプトとしてテキストトークンを自動回帰的に生成することで,E2E ASRを実現する。実験結果から,提案モデルは現代のE2E ASRモデルに匹敵する性能を示した。
参考スコア（独自算出の注目度）: 13.537367346559037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advances in machine learning have made it possible to perform various text and speech processing tasks, including automatic speech recognition (ASR), in an end-to-end (E2E) manner. Since typical E2E approaches require large amounts of training data and resources, leveraging pre-trained foundation models instead of training from scratch is gaining attention. Although there have been attempts to use pre-trained speech and language models in ASR, most of them are limited to using either. This paper explores the potential of integrating a pre-trained speech representation model with a large language model (LLM) for E2E ASR. The proposed model enables E2E ASR by generating text tokens in an autoregressive manner via speech representations as speech prompts, taking advantage of the vast knowledge provided by the LLM. Furthermore, the proposed model can incorporate remarkable developments for LLM utilization, such as inference optimization and parameter-efficient domain adaptation. Experimental results show that the proposed model achieves performance comparable to modern E2E ASR models.
Abstract（参考訳）: 機械学習の進歩により、自動音声認識(ASR)を含む様々なテキストおよび音声処理タスクをエンドツーエンド(E2E)で実行できるようになった。典型的なE2Eアプローチは大量のトレーニングデータとリソースを必要とするため、スクラッチからのトレーニングではなく、事前トレーニングされた基礎モデルを活用することが注目されている。 ASRには事前訓練された音声モデルと言語モデルを使用する試みがあるが、そのほとんどはどちらも使用に限られている。本稿では,E2E ASR のための言語モデル (LLM) と事前学習した音声表現モデルを統合する可能性について検討する。提案モデルでは,LLMが提供する膨大な知識を活用し,音声のプロンプトとしてテキストトークンを自動回帰的に生成することで,E2E ASRを実現する。さらに,提案モデルでは,推論最適化やパラメータ効率のよい領域適応など,LLM利用のための顕著な開発を取り入れることができる。実験結果から,提案モデルは現代のE2E ASRモデルに匹敵する性能を示した。

関連論文リスト

MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文参考訳（メタデータ） (2024-11-04T06:07:53Z)
Enhancing CTC-based speech recognition with diverse modeling units [2.723573795552244]
近年,エンド・ツー・エンド(E2E)自動音声認識(ASR)モデルの進化が目覚ましい。 E2Eシステムの上に、研究者はE2EモデルのN-best仮説を音素モデルで再現することで、かなり精度を向上した。本稿では,E2Eモデルと多種多様なモデリングユニットを併用した効率的な共同学習手法を提案する。
論文参考訳（メタデータ） (2024-06-05T13:52:55Z)
Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文参考訳（メタデータ） (2023-10-25T03:40:50Z)
End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。 E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文参考訳（メタデータ） (2023-03-03T01:46:41Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文参考訳（メタデータ） (2022-04-05T07:02:53Z)
End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation [36.66970917185465]
本研究では,ロバスト音声認識をターゲットとしたエンドツーエンド(E2E)自動音声認識(ASR)モデルを提案する。従来のE2E ASRモデルと比較して、提案したE2Eモデルは2つの重要なモジュールを統合する。 IRISモデルは、単一チャネルCHiME-4ベンチマークの文献で報告された最高の性能を達成する。
論文参考訳（メタデータ） (2022-04-01T16:02:31Z)
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文参考訳（メタデータ） (2021-10-09T15:06:09Z)
Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文参考訳（メタデータ） (2021-09-27T15:04:00Z)
Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文参考訳（メタデータ） (2021-01-17T16:12:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。