論文の概要: Bridging the gap: A comparative exploration of Speech-LLM and end-to-end architecture for multilingual conversational ASR
- arxiv url: http://arxiv.org/abs/2601.01461v1
- Date: Sun, 04 Jan 2026 10:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.368724
- Title: Bridging the gap: A comparative exploration of Speech-LLM and end-to-end architecture for multilingual conversational ASR
- Title(参考訳): ギャップを埋める:多言語会話型ASRにおける音声-LLMとエンドツーエンドアーキテクチャの比較検討
- Authors: Yuxiang Mei, Dongxing Xu, Jiaen Liang, Yanhua Long,
- Abstract要約: 本稿では、細調整されたWhisperとmHuBERTエンコーダをLLMと組み合わせたLLMベースのASRフレームワークを提案する。
CER/WERは10.69%で、上位1位にランクインしている。
- 参考スコア(独自算出の注目度): 16.090902570653803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The INTERSPEECH 2025 Challenge on Multilingual Conversational Speech Language Models (MLC-SLM) promotes multilingual conversational ASR with large language models (LLMs). Our previous SHNU-mASR system adopted a competitive parallel-speech-encoder architecture that integrated Whisper and mHuBERT with an LLM. However, it faced two challenges: simple feature concatenation may not fully exploit complementary information, and the performance gap between LLM-based ASR and end-to-end(E2E) encoder-decoder ASR remained unexplored. In this work, we present an enhanced LLM-based ASR framework that combines fine-tuned Whisper and mHuBERT encoders with an LLM to enrich speech representations. We first evaluate E2E Whisper models with LoRA and full fine-tuning on the MLC-SLM ASR task, and then propose cross-attention-based fusion mechanisms for the parallel-speech-encoder. On the official evaluation set of the MLC-SLM Challenge, our system achieves a CER/WER of 10.69%, ranking on par with the top-ranked Track 1 systems, even though it uses only 1,500 hours of baseline training data compared with their large-scale training sets. Nonetheless, we find that our final LLM-based ASR still does not match the performance of a fine-tuned E2E Whisper model, providing valuable empirical guidance for future Speech-LLM design. Our code is publicly available at https://github.com/1535176727/MLC-SLM.
- Abstract(参考訳): InterSPEECH 2025 Challenge on Multilingual Conversational Speech Language Models (MLC-SLM)は、大きな言語モデル(LLM)を用いた多言語会話型ASRを促進する。
従来のSHNU-mASRシステムでは,WhisperとmHuBERTをLLMに統合した並列音声エンコーダアーキテクチャを採用していた。
しかし、これは2つの課題に直面した: 単純な特徴連結は相補的な情報を完全に活用しない可能性があり、LLMベースのASRとエンコーダ(E2E)エンコーダ(英語版)のASRのパフォーマンスギャップは未探索のままであった。
本研究では、細調整されたWhisperとmHuBERTエンコーダをLLMと組み合わせたLLMベースのASRフレームワークを提案する。
まず,LRAを用いたE2E WhisperモデルとMLC-SLM ASRタスクの完全微調整を行い,並列音声エンコーダの相互アテンションに基づく融合機構を提案する。
MLC-SLM Challengeの公式評価セットでは,大規模トレーニングセットに比べて1500時間程度のベースライントレーニングデータしか使用していないにもかかわらず,上位1位と同等の10.69%のCER/WERを達成している。
しかし,LLMをベースとした最終的なASRは細調整E2E Whisperモデルの性能に相容れないことが判明し,将来の音声-LLM設計のための実証的なガイダンスを提供する。
私たちのコードはhttps://github.com/1535176727/MLC-SLMで公開されています。
関連論文リスト
- SHNU Multilingual Conversational Speech Recognition System for INTERSPEECH 2025 MLC-SLM Challenge [3.9836024799656053]
本システムは,並列音声エンコーダアーキテクチャと大言語モデル(LLM)を統合し,多言語ASRを統一的に構築する。
SHNU-mASRシステムは、InterSPEECH 2025 MLC-SLM Challengeのブラインド評価セットで11.76%の文字/単語誤り率(CER/WER)を達成する。
論文 参考訳(メタデータ) (2025-07-04T07:10:33Z) - LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors [22.845623101142483]
音声エンコーダと大言語モデル(LLM)を橋渡しする新しいパラダイムであるLegoSLMを提案する。
好成績なUSMモデルとGemmaモデルを用いて,提案手法がASRおよび音声翻訳タスクにおいて良好な性能を示すことを示す。
論文 参考訳(メタデータ) (2025-05-16T15:15:19Z) - Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。
我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文 参考訳(メタデータ) (2024-12-24T17:37:11Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。