論文の概要: Advancing Multi-talker ASR Performance with Large Language Models
- arxiv url: http://arxiv.org/abs/2408.17431v1
- Date: Fri, 30 Aug 2024 17:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 14:36:36.944607
- Title: Advancing Multi-talker ASR Performance with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたマルチストーカーASRの性能向上
- Authors: Mohan Shi, Zengrui Jin, Yaoxun Xu, Yong Xu, Shi-Xiong Zhang, Kun Wei, Yiwen Shao, Chunlei Zhang, Dong Yu,
- Abstract要約: 対話シナリオにおける複数話者からの重複音声認識は、音声認識(ASR)において最も難しい問題の一つである。
本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOTアプローチを提案する。
提案手法は,シミュレーションデータセットLibriMixにおける従来のAEDに基づく手法を超越し,実世界のデータセットAMIの評価セット上で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 48.52252970956368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing overlapping speech from multiple speakers in conversational scenarios is one of the most challenging problem for automatic speech recognition (ASR). Serialized output training (SOT) is a classic method to address multi-talker ASR, with the idea of concatenating transcriptions from multiple speakers according to the emission times of their speech for training. However, SOT-style transcriptions, derived from concatenating multiple related utterances in a conversation, depend significantly on modeling long contexts. Therefore, compared to traditional methods that primarily emphasize encoder performance in attention-based encoder-decoder (AED) architectures, a novel approach utilizing large language models (LLMs) that leverages the capabilities of pre-trained decoders may be better suited for such complex and challenging scenarios. In this paper, we propose an LLM-based SOT approach for multi-talker ASR, leveraging pre-trained speech encoder and LLM, fine-tuning them on multi-talker dataset using appropriate strategies. Experimental results demonstrate that our approach surpasses traditional AED-based methods on the simulated dataset LibriMix and achieves state-of-the-art performance on the evaluation set of the real-world dataset AMI, outperforming the AED model trained with 1000 times more supervised data in previous works.
- Abstract(参考訳): 会話シナリオにおいて複数の話者から重なり合う音声を認識することは、自動音声認識(ASR)において最も難しい問題の一つである。
シリアライズド・アウトプット・トレーニング(SOT)は、音声の発声時間に応じて複数の話者からの書き起こしを連結する手法である。
しかし、会話の中で複数の関連する発話を連結することに由来するSOTスタイルの文字起こしは、長い文脈のモデリングに大きく依存する。
したがって、アテンションベースのエンコーダデコーダ(AED)アーキテクチャにおけるエンコーダ性能を主に重視する従来の手法と比較して、事前訓練されたデコーダの能力を活用した大規模言語モデル(LLM)を利用した新しいアプローチは、このような複雑で困難なシナリオに適している可能性がある。
本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOT手法を提案する。
実験結果から,本手法はシミュレーションデータセットLibriMixの従来のAED手法を超越し,実世界のデータセットAMIの評価セットにおける最先端性能を実現し,従来の1000倍の教師付きデータでトレーニングされたAEDモデルより優れていることが示された。
関連論文リスト
- Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。
我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文 参考訳(メタデータ) (2024-08-17T14:47:05Z) - Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing [17.92378239787507]
DMLM(Decoder-only Discrete Multimodal Language Model)を提案する。
DMLMは、複数のタスク(ASR、T2S、S2TTなど)とモダリティ(テキスト、音声、ビジョン)に柔軟に適用できる。
その結果,DMLMは複数のタスクやデータセットにまたがって,教師なしと教師なしのトレーニングの組み合わせによって大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2024-06-04T20:08:25Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Multimodal Speech Recognition for Language-Guided Embodied Agents [5.464988285536847]
視覚的コンテキストを考慮したマルチモーダルASRモデルの訓練を行い,音声命令の書き起こしにおける誤りを低減する。
マルチモーダルASRモデルは,一助詞よりも最大30%のマスキング語を回復させることで,視覚的観察の活用によりマスキング語回復が促進されることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:41:48Z) - Simulating realistic speech overlaps improves multi-talker ASR [36.39193360559079]
本稿では,複数話者の重なり合う音声を現実的な音声重なりでシミュレートする改良手法を提案する。
この表現により、N-gramのような統計言語モデルに基づいて、実際の会話から重なり合う音声パターンを学習することができる。
実験では,提案手法を用いて学習したマルチストーカーASRモデルを用いて,複数データセット間の単語誤り率を一貫した改善を行った。
論文 参考訳(メタデータ) (2022-10-27T18:29:39Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。