論文の概要: A Cookbook for Community-driven Data Collection of Impaired Speech in LowResource Languages
- arxiv url: http://arxiv.org/abs/2507.02428v1
- Date: Thu, 03 Jul 2025 08:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.978123
- Title: A Cookbook for Community-driven Data Collection of Impaired Speech in LowResource Languages
- Title(参考訳): 低音源言語における障害音声のコミュニティ駆動データ収集のためのクックブック
- Authors: Sumaya Ahmed Salihs, Isaac Wiafe, Jamal-Deen Abdulai, Elikem Doe Atsakpo, Gifty Ayoka, Richard Cave, Akon Obu Ekpezu, Catherine Holloway, Katrin Tomanek, Fiifi Baffoe Payin Winful,
- Abstract要約: 本研究は,聴覚障害者のための音声認識モデルを構築するために,音声サンプルの収集手法を提案する。
コミュニティ主導のデータ収集とASRモデル構築のためのベストプラクティスとトレーニングの“クッキングブック”を開発することで、ASR技術とデータ収集の民主化を目指している。
この研究は概念実証として、ガーナで広く話されている先住民言語であるアカン語における障害言語の最初のオープンソースデータセットをキュレートした。
- 参考スコア(独自算出の注目度): 7.883772614704979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents an approach for collecting speech samples to build Automatic Speech Recognition (ASR) models for impaired speech, particularly, low-resource languages. It aims to democratize ASR technology and data collection by developing a "cookbook" of best practices and training for community-driven data collection and ASR model building. As a proof-of-concept, this study curated the first open-source dataset of impaired speech in Akan: a widely spoken indigenous language in Ghana. The study involved participants from diverse backgrounds with speech impairments. The resulting dataset, along with the cookbook and open-source tools, are publicly available to enable researchers and practitioners to create inclusive ASR technologies tailored to the unique needs of speech impaired individuals. In addition, this study presents the initial results of fine-tuning open-source ASR models to better recognize impaired speech in Akan.
- Abstract(参考訳): 本研究では,音声認識モデルを構築するために,音声サンプルの収集手法を提案する。
コミュニティ主導のデータ収集とASRモデル構築のためのベストプラクティスとトレーニングの“クッキングブック”を開発することで、ASR技術とデータ収集の民主化を目指している。
この研究は概念実証として、ガーナで広く話されている先住民言語であるアカン語における障害言語の最初のオープンソースデータセットをキュレートした。
この研究には、様々な背景を持つ言語障害の参加者が含まれていた。
結果として得られたデータセットは、クックブックやオープンソースツールとともに公開されており、研究者や実践者が、言語障害のある個人のユニークなニーズに合わせて、包括的ASR技術を作成することができる。
さらに,本研究では,Akanにおける障害音声をよりよく認識するオープンソースASRモデルの初期結果について述べる。
関連論文リスト
- Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.2858851789879595]
本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。
Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。
最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文 参考訳(メタデータ) (2025-03-24T09:39:41Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - Towards Relation Extraction From Speech [56.36416922396724]
本稿では,新たな聴取情報抽出タスク,すなわち音声関係抽出を提案する。
本研究では,音声合成システムによる音声関係抽出のための訓練データセットを構築し,英語母語話者によるクラウドソーシングによるテストデータセットを構築した。
我々は,音声関係抽出における課題を識別するための包括的実験を行い,今後の探索に光を当てる可能性がある。
論文 参考訳(メタデータ) (2022-10-17T05:53:49Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Fast Development of ASR in African Languages using Self Supervised
Speech Representation Learning [13.7466513616362]
本稿では,2020年6月のAfrican Master of Machine Intelligence (AMMI)における非公式なコラボレーションの結果について述べる。
モバイルアプリケーションを用いた音声データ収集に関する一連の講義と研究室の後、少数の学生と講師は、Wolof、Ga、Somaliの3つの言語のための自動音声認識(ASR)プロジェクトに取り組んだ。
本稿では,データ収集方法と,少量 (1h) の書き起こし音声を訓練データとして開発したASRシステムについて述べる。
論文 参考訳(メタデータ) (2021-03-16T11:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。