論文の概要: SAGE: Spliced-Audio Generated Data for Enhancing Foundational Models in Low-Resource Arabic-English Code-Switched Speech Recognition
- arxiv url: http://arxiv.org/abs/2506.22143v1
- Date: Fri, 27 Jun 2025 11:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.189296
- Title: SAGE: Spliced-Audio Generated Data for Enhancing Foundational Models in Low-Resource Arabic-English Code-Switched Speech Recognition
- Title(参考訳): SAGE:低解像度アラビア語-英語コード変換音声認識における基礎モデル強化のためのスプリケート・オーディオ生成データ
- Authors: Muhammad Umar Farooq, Oscar Saz,
- Abstract要約: 本稿では、方言アラビア語(DA)とアラビア英語(CS)音声における様々な音声SSLモデルの性能について検討する。
データ不足に対処するため,人工CS音声データを生成するための改良型オーディオスプライシング手法を導入した。
すでに微調整されたSSLモデルでは、アラビア語と英語のCSベンチマークでワードエラー率(WER)が7.8%向上する。
- 参考スコア(独自算出の注目度): 4.210105570047471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the performance of various speech SSL models on dialectal Arabic (DA) and Arabic-English code-switched (CS) speech. To address data scarcity, a modified audio-splicing approach is introduced to generate artificial CS speech data. Fine-tuning an already fine-tuned SSL model with the proposed Spliced-Audio Generated (SAGE) data results in an absolute improvement on Word Error Rate (WER) of 7.8% on Arabic and English CS benchmarks. Additionally, an Experience Replay (ER) inspired approach is proposed to enhance generalisation across DA and CS speech while mitigating catastrophic forgetting. Integrating an out-of-domain 3-gram language model reduces the overall mean WER from 31.7% to 26.6%. Few-shot fine-tuning for code-switching benchmarks further improves WER by 4.9%. A WER of 31.1% on Arabic-English CS benchmarks surpasses large-scale multilingual models, including USM and Whisper-large-v2 (both over ten times larger) by an absolute margin of 5.5% and 8.4%, respectively.
- Abstract(参考訳): 本稿では、方言アラビア語(DA)とアラビア英語(CS)音声における様々な音声SSLモデルの性能について検討する。
データ不足に対処するため,人工CS音声データを生成するための改良型オーディオスプライシング手法を導入した。
提案したSpliced-Audio Generated (SAGE)データを使って、すでに調整済みのSSLモデルを微調整すると、アラビア語と英語のCSベンチマークでワードエラーレート(WER)が7.8%向上する。
さらに,大惨な忘れを軽減しつつ,DA音声とCS音声の一般化を促進するために,経験リプレイ(ER)にインスパイアされたアプローチを提案する。
ドメイン外3グラム言語モデルを統合することで、WER全体の平均値が31.7%から26.6%に低下する。
コードスイッチングベンチマークの微調整はWERをさらに4.9%改善した。
アラビア語と英語のCSベンチマークの31.1%のWERは、USMとWhisper-large-v2(どちらも10倍以上)を含む大規模な多言語モデルにそれぞれ5.5%と8.4%のマージンで勝っている。
関連論文リスト
- Whisper Turns Stronger: Augmenting Wav2Vec 2.0 for Superior ASR in Low-Resource Languages [1.3108652488669736]
本稿では,データ拡張技術を用いて,Wav2Vec2上で微調整されたASRシステムを強化するエンドツーエンドフレームワークを提案する。
提案手法は,事前学習したWav2Vec2とよく知られたWhisper ASRモデルの2つのベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-12-31T13:03:20Z) - Whisper Finetuning on Nepali Language [0.0]
本研究は,ネパール語の転写精度を向上させるために,OpenAIのWhisperモデルを微調整し,包括的で一般化したデータセットを作成することに焦点を当てる。
ASRデータセットと自己記録されたカスタムデータセットを多種多様なアクセント、方言、話し方で活用し、拡張によってさらに充実させます。
我々のアプローチは、FleurのデータセットでトレーニングされたWhisperのベースラインモデルよりも優れており、中規模モデルでは36.2%、中型モデルでは23.8%のWER削減を実現している。
論文 参考訳(メタデータ) (2024-11-19T15:55:56Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based
Augmentation [4.874780144224057]
本研究の目的は,多段階拡張アプローチによるアラビア語義歯の自動音声認識の性能向上である。
そこで本研究ではまず,健常なアラビア語から変形性アラビア語を生成するための信号に基づくアプローチを提案する。
また,2段階のPWG(Parallel Wave Generative)逆解析モデルを提案する。
論文 参考訳(メタデータ) (2023-06-07T12:01:46Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Code-Switching Text Augmentation for Multilingual Speech Processing [36.302629721413155]
音声コンテンツのコードスイッチングは、混合入力を処理するためにASRシステムに強制されている。
近年のASR研究は,多言語データを用いたCS現象の処理におけるE2E-ASRの優位性を示した。
音声CSテキストを人工的に生成し、異なる音声モジュールを改善するためのモノリンガルデータを強化する手法を提案する。
論文 参考訳(メタデータ) (2022-01-07T17:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。