論文の概要: Are ASR foundation models generalized enough to capture features of regional dialects for low-resource languages?
- arxiv url: http://arxiv.org/abs/2510.23252v1
- Date: Mon, 27 Oct 2025 12:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.539843
- Title: Are ASR foundation models generalized enough to capture features of regional dialects for low-resource languages?
- Title(参考訳): ASR基盤モデルは低リソース言語のための地域方言の特徴を捉えるのに十分一般化されているか?
- Authors: Tawsif Tashwar Dipto, Azmol Hossain, Rubayet Sabbir Faruque, Md. Rezuwan Hassan, Kanij Fatema, Tanmoy Shome, Ruwad Naswan, Md. Foriduzzaman Zihad, Mohaymen Ul Anam, Nazia Tasnim, Hasan Mahmud, Md Kamrul Hasan, Md. Mehedi Hasan Shawon, Farig Sadeque, Tahsin Reasat,
- Abstract要約: 78時間の注釈付きBengali Speech-to-Text(STT)コーパスであるBen-10を開発した。
言語的・データ駆動的な視点からの調査は、言語基盤モデルが地域方言ASRで苦戦していることを示している。
我々は,すべての深層学習手法が方言変化下での音声データのモデル化に苦しむのを観察するが,方言固有のモデルトレーニングは問題を緩和する。
- 参考スコア(独自算出の注目度): 3.703726003145388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional research on speech recognition modeling relies on the canonical form for most low-resource languages while automatic speech recognition (ASR) for regional dialects is treated as a fine-tuning task. To investigate the effects of dialectal variations on ASR we develop a 78-hour annotated Bengali Speech-to-Text (STT) corpus named Ben-10. Investigation from linguistic and data-driven perspectives shows that speech foundation models struggle heavily in regional dialect ASR, both in zero-shot and fine-tuned settings. We observe that all deep learning methods struggle to model speech data under dialectal variations but dialect specific model training alleviates the issue. Our dataset also serves as a out of-distribution (OOD) resource for ASR modeling under constrained resources in ASR algorithms. The dataset and code developed for this project are publicly available
- Abstract(参考訳): 音声認識モデリングの従来の研究は、ほとんどの低リソース言語における標準形式に依存し、一方、地域方言における音声認識(ASR)は微調整タスクとして扱われる。
78時間注釈付きBengali Speech-to-Text(STT)コーパスであるBen-10を開発した。
言語的・データ駆動的な視点からの調査では、音声基礎モデルは、ゼロショットと微調整の両方で、地域方言のASRで苦戦している。
我々は,すべての深層学習手法が方言変化下での音声データのモデル化に苦しむのを観察するが,方言固有のモデルトレーニングは問題を緩和する。
我々のデータセットは、ASRアルゴリズムの制約されたリソースの下でのASRモデリングのためのアウト・オブ・ディストリビューション(OOD)リソースとしても機能する。
このプロジェクトで開発されたデータセットとコードは公開されています
関連論文リスト
- Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - A Cookbook for Community-driven Data Collection of Impaired Speech in LowResource Languages [7.883772614704979]
本研究は,聴覚障害者のための音声認識モデルを構築するために,音声サンプルの収集手法を提案する。
コミュニティ主導のデータ収集とASRモデル構築のためのベストプラクティスとトレーニングの“クッキングブック”を開発することで、ASR技術とデータ収集の民主化を目指している。
この研究は概念実証として、ガーナで広く話されている先住民言語であるアカン語における障害言語の最初のオープンソースデータセットをキュレートした。
論文 参考訳(メタデータ) (2025-07-03T08:34:15Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Multilingual acoustic word embeddings for zero-resource languages [1.5229257192293204]
音響単語埋め込み (AWE) - 可変重み付き音声セグメントの固定次元表現。
この研究は、ゼロリソース言語上の既存のAWEモデルを上回る、新しいニューラルネットワークを導入している。
AWEは、スワヒリ放送におけるヘイトスピーチ検出のためのキーワードスポッティングシステムに適用される。
論文 参考訳(メタデータ) (2024-01-19T08:02:37Z) - Towards hate speech detection in low-resource languages: Comparing ASR
to acoustic word embeddings on Wolof and Swahili [16.424308444697015]
ラジオ放送におけるキーワードスポッティングによるヘイトスピーチの検出について検討する。
1つのアプローチは、ターゲットとする低リソース言語のための自動音声認識システムを構築することである。
音声セグメントを類似したベクトルを持つ空間にマッピングする音響単語埋め込みモデルと比較する。
論文 参考訳(メタデータ) (2023-06-01T07:25:10Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。