論文の概要: SHNU Multilingual Conversational Speech Recognition System for INTERSPEECH 2025 MLC-SLM Challenge
- arxiv url: http://arxiv.org/abs/2507.03343v2
- Date: Tue, 08 Jul 2025 04:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 12:20:17.798823
- Title: SHNU Multilingual Conversational Speech Recognition System for INTERSPEECH 2025 MLC-SLM Challenge
- Title(参考訳): 2025 MLC-SLMチャレンジのためのSHNU多言語会話音声認識システム
- Authors: Yuxiang Mei, Yuang Zheng, Dongxing Xu, Yanhua Long,
- Abstract要約: 本システムは,並列音声エンコーダアーキテクチャと大言語モデル(LLM)を統合し,多言語ASRを統一的に構築する。
SHNU-mASRシステムは、InterSPEECH 2025 MLC-SLM Challengeのブラインド評価セットで11.76%の文字/単語誤り率(CER/WER)を達成する。
- 参考スコア(独自算出の注目度): 3.9836024799656053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes SHNU multilingual conversational speech recognition system (SHNU-mASR, team name-"maybe"), submitted to Track 1 of the INTERSPEECH 2025 MLC-SLM Challenge. Our system integrates a parallel-speech-encoder architecture with a large language model (LLM) to form a unified multilingual ASR framework. The parallel-speech-encoder consists of two pre-trained encoders, the Whisper-large-v3 encoder and mHuBERT-147 encoder. Their output embeddings are concatenated and fed into the LLM, enabling the model to leverage complementary acoustic and linguistic knowledge and achieve competitive performance. Moreover, we adopt a tri-stage training strategy to jointly update the low-rank adaptation modules and projector parameters of both the speech encoders and the LLM. In addition, we incorporate an additional language-aware prompt at the LLM input to enhance language-specific text generation. The SHNU-mASR system achieves an overall character/word error rate (CER/WER) of 11.76% on the blind evaluation set of the challenge, outperforming the official MLC-SLM baseline by 8.41 absolute CER/WER, without increasing the baseline training data.
- Abstract(参考訳): 本稿では,SHNU多言語会話音声認識システム(SHNU-mASR, team name-"maybe")をInterSPEECH 2025 MLC-SLM Challengeのトラック1に提出した。
本システムは,並列音声エンコーダアーキテクチャと大言語モデル(LLM)を統合し,多言語ASRを統一的に構築する。
並列音声エンコーダは、2つの事前訓練されたエンコーダ、Whisper-large-v3エンコーダとmHuBERT-147エンコーダで構成される。
それらの出力埋め込みはLLMに結合して供給され、相補的な音響的および言語的知識を活用し、競争性能を達成することができる。
さらに,音声エンコーダとLLMの両方の低ランク適応モジュールとプロジェクタパラメータを共同で更新する3段階のトレーニング戦略を採用した。
さらに、LLM入力に追加の言語対応プロンプトを組み込んで、言語固有のテキスト生成を強化する。
SHNU-mASRシステムは、挑戦のブラインド評価セットで11.76%の文字/単語エラー率(CER/WER)を達成し、公式のMLC-SLMベースラインを8.41絶対CER/WERで上回り、ベースラインのトレーニングデータを増加させることなく達成する。
関連論文リスト
- Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。
我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文 参考訳(メタデータ) (2024-12-24T17:37:11Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition [23.172469312225694]
自動音声認識(ASR)におけるテキスト生成プロセスの指導に,命令調整付き大言語モデル(LLM)を用いることを提案する。
提案手法はCTCとアテンションアーキテクチャを併用し,LLMはデコーダのフロントエンド特徴抽出器として機能する。
実験結果から,LLM誘導モデルによる単語誤り率の相対的な増加率は,主要なベンチマークで約13%であった。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。