論文の概要: Improving Multilingual Speech Models on ML-SUPERB 2.0: Fine-tuning with Data Augmentation and LID-Aware CTC
- arxiv url: http://arxiv.org/abs/2505.24200v2
- Date: Tue, 03 Jun 2025 15:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 16:31:03.694232
- Title: Improving Multilingual Speech Models on ML-SUPERB 2.0: Fine-tuning with Data Augmentation and LID-Aware CTC
- Title(参考訳): ML-SUPERB 2.0における多言語音声モデルの改良:データ拡張による微調整とLID対応CTC
- Authors: Qingzheng Wang, Jiancheng Sun, Yifan Peng, Shinji Watanabe,
- Abstract要約: 本稿では,ML-SUPERB 2.0 上での多言語 LID と ASR を強化し,SFM 適応のための複数の戦略を探求する。
我々は、数ショット設定におけるパフォーマンスギャップを軽減するためにデータ拡張を採用し、正規化のためのLID接続性時間分類損失を導入する。
- 参考スコア(独自算出の注目度): 43.300899854174745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual speech processing with self-supervised or supervised pre-trained Speech Foundation Models (SFM) has achieved strong performance on tasks like Language Identification (LID) and Automatic Speech Recognition (ASR). However, these models struggle with limited resources during fine-tuning. This paper enhances multilingual LID and ASR on ML-SUPERB 2.0 by exploring multiple strategies for adapting SFMs, including frozen upstream training, partial fine-tuning, and low-rank adaptation. Furthermore, we employ data augmentation to mitigate performance gaps in few-shot settings and introduce LID Connectionist Temporal Classification (CTC) loss for regularization. Our approach achieves a 14% relative improvement in LID accuracy and a 30% relative reduction in ASR CER over the baseline on ML-SUPERB 2.0, securing second place in the Interspeech 2025 ML-SUPERB 2.0 Challenge.
- Abstract(参考訳): 言語識別 (LID) や自動音声認識 (ASR) といったタスクにおいて, 自己教師型あるいは教師型事前訓練型音声基礎モデル (SFM) を用いた多言語音声処理は, 高い性能を達成している。
しかし、これらのモデルは微調整中に限られた資源に悩まされる。
本稿では,ML-SUPERB 2.0 上の多言語 LID と ASR を,凍結上流訓練,部分微調整,低ランク適応を含む複数の SFM 適応戦略を探求することによって拡張する。
さらに、数ショット設定におけるパフォーマンスギャップを軽減するためにデータ拡張を採用し、正規化のためのLID接続性時間分類(CTC)の損失を導入する。
提案手法は,ML-SUPERB 2.0 のベースライン上での LID の精度が 14% 向上し,ASR CER が30% 減少し,Interspeech 2025 ML-SUPERB 2.0 の2位となった。
関連論文リスト
- Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation [12.090488308404765]
異なる言語やタスクでトレーニングされたモデルを効率的に統合するテクニックであるLoRS-Mergingを紹介する。
LoRS-Mergingは、従来のマルチタスクトレーニングベースラインと比較して、単語エラー率を10%削減し、BLEUスコアを4%改善する。
論文 参考訳(メタデータ) (2025-02-24T18:06:57Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale [25.257770733168012]
大規模言語モデル(LLM)は、英語中心の事前学習と限定的な多言語データにより、様々なNLPタスクにおいて顕著な成功を収めている。
X-ALMA**は、50の多様な言語で最高のパフォーマンスを保証するために設計されたモデルです。
論文 参考訳(メタデータ) (2024-10-04T03:17:27Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection [8.683288452838136]
大規模言語モデル(LLM)は人間のような会話を約束しているが、主にテキストデータに基づいて事前訓練されている。
本稿では,事前学習した単調なLDMを効率よく適用し,これまで目に見えなかった新しいモダリティを消費するFLORA手法を提案する。
デバイス指向音声検出では、FLoRAを用いることで、テキストのみのアプローチに比べて、マルチモーダルLLMは22%の誤差率(EER)の相対的な低減を実現している。
論文 参考訳(メタデータ) (2024-06-13T22:52:07Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Master-ASR: Achieving Multilingual Scalability and Low-Resource
Adaptation in ASR with Modular Learning [28.592569051244375]
METHODNSは、強力な多言語スケーラビリティと低リソース適応性を同時に実現している。
我々のフレームワークは、最先端(SOTA)メソッドよりも30%少ない推論オーバーヘッドで、0.13$sim$2.41低い文字誤り率(CER)を達成する。
論文 参考訳(メタデータ) (2023-06-23T16:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。