論文の概要: Transsion Multilingual Speech Recognition System for MLC-SLM 2025 Challenge
- arxiv url: http://arxiv.org/abs/2508.14916v1
- Date: Fri, 15 Aug 2025 10:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.009102
- Title: Transsion Multilingual Speech Recognition System for MLC-SLM 2025 Challenge
- Title(参考訳): MLC-SLM 2025チャレンジのための超多言語音声認識システム
- Authors: Xiaoxiao Li, An Zhu, Youhai Jiang, Fengjie Zhu,
- Abstract要約: 本稿では,MLC-SLM 2025 Challengeのトラック1用トランスミッション音声チームが開発した,新しい多言語自動音声認識(ASR)システムのアーキテクチャと性能について述べる。
提案システムは,(1)凍結したWhisper-large-v3ベースの音声エンコーダで,大規模事前学習を利用してロバストな音響特徴抽出を実現する。
事前訓練されたモデルとタスク固有の微調整を体系的に組み合わせることで、11言語で9.83%の単語/文字エラー率(WER/CER)を達成した。
- 参考スコア(独自算出の注目度): 18.816408172588144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the architecture and performance of a novel Multilingual Automatic Speech Recognition (ASR) system developed by the Transsion Speech Team for Track 1 of the MLC-SLM 2025 Challenge. The proposed system comprises three key components: 1) a frozen Whisper-large-v3 based speech encoder, leveraging large-scale pretraining to ensure robust acoustic feature extraction; 2) a trainable adaptor module using Linear-ReLU-Linear transformation mechanisms to effectively align speech and text representations; and 3) a frozen Qwen2.5-7B-Instruct large language model (LLM) integrated with trainable LoRA for optimized contextual linguistic decoding. By systematically combining pretrained models with task specific fine-tuning, the system achieved a word/character error rate (WER/CER) of 9.83% across 11 languages in the evaluation set and ranked third place among global participants.
- Abstract(参考訳): 本稿では,MLC-SLM 2025 Challengeのトラック1用トランスミッション音声チームが開発した,新しい多言語自動音声認識(ASR)システムのアーキテクチャと性能について述べる。
提案システムは,3つのキーコンポーネントから構成される。
1) 大規模事前学習を活用してロバストな音響特徴抽出を実現する冷凍Whisper-large-v3型音声エンコーダ
2) 音声とテキストの表現を効果的に整合させる線形ReLU-Linear変換機構を用いた訓練可能な適応モジュール
3) Qwen2.5-7B-Instruct large language model (LLM) をトレーニング可能なLoRAと統合し, 文脈言語復号を最適化した。
事前訓練されたモデルとタスク固有の微調整を体系的に組み合わせることで、11言語で9.83%の単語/文字エラー率(WER/CER)を達成した。
関連論文リスト
- Triple X: A LLM-Based Multilingual Speech Recognition System for the INTERSPEECH2025 MLC-SLM Challenge [24.966911190845817]
本稿では,MLC-SLM(Multi-Lingual Conversational Speech Language Modeling, MLC-SLM)チャレンジのタスク1に提案した3つの音声認識システムについて述べる。
本研究は,多言語対話シナリオにおける音声認識の精度を,革新的なエンコーダ・アダプタ・LLMアーキテクチャを用いて最適化することに焦点を当てる。
論文 参考訳(メタデータ) (2025-07-23T07:48:33Z) - SHNU Multilingual Conversational Speech Recognition System for INTERSPEECH 2025 MLC-SLM Challenge [3.9836024799656053]
本システムは,並列音声エンコーダアーキテクチャと大言語モデル(LLM)を統合し,多言語ASRを統一的に構築する。
SHNU-mASRシステムは、InterSPEECH 2025 MLC-SLM Challengeのブラインド評価セットで11.76%の文字/単語誤り率(CER/WER)を達成する。
論文 参考訳(メタデータ) (2025-07-04T07:10:33Z) - Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems [2.9034429823924865]
本稿では,MLC-SLM Challenge 2025のための大規模言語モデル(LLM)を用いた多言語音声認識と言語モデリングに焦点を当てた。
本システムでは,Qwen2.5-7Bをデコーダのみの言語モデルとして,Gemma3-12Bと18.6%を用いて,プライベートテスト平均WER/CERの16.63%の競合性能を実現している。
論文 参考訳(メタデータ) (2025-06-16T15:23:07Z) - TalTech Systems for the Interspeech 2025 ML-SUPERB 2.0 Challenge [4.297070083645049]
事前訓練された言語埋め込みモデルと、言語間で共有エンコーダを持つ軽量音声認識モデルからなるハイブリッド言語識別システムを用いる。
音声認識には3つのモデルを使用し、トレーニングデータの可用性と保留データの性能に応じて、各言語に1つのモデルのみを適用する。
システムは、チャレンジで総合的なスコアを獲得しました。
論文 参考訳(メタデータ) (2025-06-02T09:16:09Z) - Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。