論文の概要: Bridging the Language Gap: Synthetic Voice Diversity via Latent Mixup for Equitable Speech Recognition
- arxiv url: http://arxiv.org/abs/2511.20534v1
- Date: Tue, 25 Nov 2025 17:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.582232
- Title: Bridging the Language Gap: Synthetic Voice Diversity via Latent Mixup for Equitable Speech Recognition
- Title(参考訳): 言語ギャップのブリッジ:任意の音声認識のための潜時混合による合成音声の多様性
- Authors: Wesley Bian, Xiaofeng Lin, Guang Cheng,
- Abstract要約: 音声タスクのための現代の機械学習モデルは、しばしば英語や他の豊富な言語で優れたパフォーマンスを示す。
この格差は、データ収集が困難かつコストのかかる低リソース言語において、不公平なパフォーマンスギャップをもたらします。
本稿では,このギャップを緩和するために設計された音声コーパスのための新しいデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 8.948233216872211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning models for audio tasks often exhibit superior performance on English and other well-resourced languages, primarily due to the abundance of available training data. This disparity leads to an unfair performance gap for low-resource languages, where data collection is both challenging and costly. In this work, we introduce a novel data augmentation technique for speech corpora designed to mitigate this gap. Through comprehensive experiments, we demonstrate that our method significantly improves the performance of automatic speech recognition systems on low-resource languages. Furthermore, we show that our approach outperforms existing augmentation strategies, offering a practical solution for enhancing speech technology in underrepresented linguistic communities.
- Abstract(参考訳): 現代の音声タスクの機械学習モデルは、主に利用可能なトレーニングデータが豊富にあるため、英語や他の豊富な言語で優れたパフォーマンスを示すことが多い。
この格差は、データ収集が困難かつコストのかかる低リソース言語において、不公平なパフォーマンスギャップをもたらします。
本研究では,このギャップを緩和するために設計された音声コーパスのための新しいデータ拡張手法を提案する。
包括的な実験により,低リソース言語における音声認識システムの性能が大幅に向上することが実証された。
さらに,提案手法は既存の拡張戦略よりも優れており,表現不足の言語コミュニティにおける音声技術向上のための実践的ソリューションを提供する。
関連論文リスト
- Empowering Global Voices: A Data-Efficient, Phoneme-Tone Adaptive Approach to High-Fidelity Speech Synthesis [5.283520143851873]
本稿では,データ最適化フレームワークと高度な音響モデルを統合し,高品質なTTSシステムを構築する手法を提案する。
本稿では,タイ語を実例として,複雑な音声規則とスパースリソースを効果的に扱う手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-04-10T15:32:57Z) - Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement [36.136070412464214]
音声強調(SE)は、雑音の多い環境下での音声の品質と可聴性を改善することを目的としている。
近年の研究では、音声信号処理に視覚的手がかりを取り入れることで、SE性能が向上することが示されている。
本稿では,音声,視覚,言語情報を統合した拡散モデルを利用した多モード学習フレームワークDLAV-SEを提案する。
論文 参考訳(メタデータ) (2025-01-23T04:36:29Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。