論文の概要: Seewo's Submission to MLC-SLM: Lessons learned from Speech Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2506.13300v3
- Date: Wed, 18 Jun 2025 06:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 13:10:45.367372
- Title: Seewo's Submission to MLC-SLM: Lessons learned from Speech Reasoning Language Models
- Title(参考訳): シーウーのLC-SLMへの提案:音声推論言語モデルから学んだ教訓
- Authors: Bo Li, Chengben Xu, Wufeng Zhang,
- Abstract要約: MLC-SLM(Multilingual Conversational Speech Language Model Challenge)の両トラック用システム
ASRのための音声モデルにおいて、推論と自己補正を明確に強化する多段階学習パイプラインを導入する。
- 参考スコア(独自算出の注目度): 4.917936997225074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Seewo's systems for both tracks of the Multilingual Conversational Speech Language Model Challenge (MLC-SLM), addressing automatic speech recognition (ASR) and speaker diarization with ASR (SD-ASR). We introduce a multi-stage training pipeline that explicitly enhances reasoning and self-correction in speech language models for ASR. Our approach combines curriculum learning for progressive capability acquisition, Chain-of-Thought data augmentation to foster intermediate reflection, and Reinforcement Learning with Verifiable Rewards (RLVR) to further refine self-correction through reward-driven optimization. This approach achieves substantial improvements over the official challenge baselines. On the evaluation set, our best system attains a WER/CER of 11.57% for Track 1 and a tcpWER/tcpCER of 17.67% for Track 2. Comprehensive ablation studies demonstrate the effectiveness of each component under challenge constraints.
- Abstract(参考訳): 本稿では,MLC-SLM (Multilingual Conversational Speech Language Model Challenge) と自動音声認識 (ASR) と話者ダイアリゼーション (SD-ASR) の両トラックを対象としたシステムについて述べる。
ASRのための音声モデルにおいて、推論と自己補正を明確に強化する多段階学習パイプラインを導入する。
提案手法は,段階的能力獲得のためのカリキュラム学習,中間的リフレクションを促進するためのChain-of-Thoughtデータ拡張,および報酬駆動最適化による自己補正をさらに洗練するためのRLVR(Reinforcement Learning with Verifiable Rewards)を組み合わせる。
このアプローチは、公式なチャレンジベースラインよりも大幅に改善されている。
評価セットでは、トラック1ではWER/CERが11.57%、トラック2ではtcpWER/tcpCERが17.67%となる。
包括的アブレーション研究は、課題制約の下で各コンポーネントの有効性を示す。
関連論文リスト
- Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。
本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。
その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文 参考訳(メタデータ) (2025-05-23T05:50:14Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Multi-stage Large Language Model Correction for Speech Recognition [10.995600950995021]
我々は,大言語モデル(LLM)のASR出力の不確実性推定と推論能力を利用した,新しい多段階的アプローチを提案する。
提案手法の有効性を,WERが競合するASRシステムよりも10% 20% 向上していることを示す。
論文 参考訳(メタデータ) (2023-10-17T19:02:40Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Unified Modeling of Multi-Talker Overlapped Speech Recognition and
Diarization with a Sidecar Separator [42.8787280791491]
複数話者の重複した音声は,音声認識とダイアリゼーションにおいて重要な課題となる。
本稿では,単一話者の自動音声認識システムをマルチ話者に変換するコスト効率のよい手法を提案する。
ダイアリゼーションブランチをSidecarに組み込むことで、ASRとダイアリゼーションの両方を統一的にモデル化し、768のパラメータのみを無視できるオーバーヘッドでダイアリゼーションを行う。
論文 参考訳(メタデータ) (2023-05-25T17:18:37Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Multimodal Semi-supervised Learning Framework for Punctuation Prediction
in Conversational Speech [17.602098162338137]
句読点予測のためのマルチモーダル半教師付き学習手法について検討する。
我々は大量の音声およびテキストデータから表現を学習する。
1時間分の音声とテキストデータをトレーニングすると、ベースラインモデルよりも9-18%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-08-03T08:13:09Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。