論文の概要: Enabling Automatic Disordered Speech Recognition: An Impaired Speech Dataset in the Akan Language
- arxiv url: http://arxiv.org/abs/2602.05406v1
- Date: Thu, 05 Feb 2026 07:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.820566
- Title: Enabling Automatic Disordered Speech Recognition: An Impaired Speech Dataset in the Akan Language
- Title(参考訳): 自動障害音声認識の実現--阿寒語における障害音声データセット
- Authors: Isaac Wiafe, Akon Obu Ekpezu, Sumaya Ahmed Salihs, Elikem Doe Atsakpo, Fiifi Baffoe Payin Winful, Jamal-Deen Abdulai,
- Abstract要約: 本研究では,言語障害のある母語話者の音声サンプルをキュレートしたコーパスを提案する。
データセットは、スタマリング、脳性麻痺、口蓋裂、脳卒中誘発発声障害の4つの階級にまたがる50.01時間の音声記録からなる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of impaired speech data hinders advancements in the development of inclusive speech technologies, particularly in low-resource languages such as Akan. To address this gap, this study presents a curated corpus of speech samples from native Akan speakers with speech impairment. The dataset comprises of 50.01 hours of audio recordings cutting across four classes of impaired speech namely stammering, cerebral palsy, cleft palate, and stroke induced speech disorder. Recordings were done in controlled supervised environments were participants described pre-selected images in their own words. The resulting dataset is a collection of audio recordings, transcriptions, and associated metadata on speaker demographics, class of impairment, recording environment and device. The dataset is intended to support research in low-resource automatic disordered speech recognition systems and assistive speech technology.
- Abstract(参考訳): 障害音声データの欠如は、特にAkanのような低リソース言語において、包括的音声技術の発展を妨げている。
このギャップに対処するため,本研究では,母語話者の言語障害のある音声サンプルをキュレートしたコーパスを提示する。
データセットは、スタマリング、脳性麻痺、口蓋裂、脳卒中誘発発声障害の4つの階級にまたがる50.01時間の音声記録からなる。
制御された教師付き環境で録音され、参加者は事前に選択されたイメージを自身の言葉で記述した。
得られたデータセットは、話者人口、障害のクラス、記録環境、デバイスに関するオーディオ記録、転写、および関連するメタデータのコレクションである。
このデータセットは、低リソース自動障害音声認識システムと補助音声技術の研究を支援することを目的としている。
関連論文リスト
- Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition [8.838919369202525]
先天性障害による音声障害は,音声認識システムにおいて大きな課題となる。
Whisperのような最先端のASRモデルは、トレーニングデータの可用性の制限と高い音響可変性のために、まだ非ノルマ的音声に苦慮している。
本研究では,データ効率のよい微調整のためのベイジアン低ランク適応に基づく新しいASRパーソナライズ手法を提案する。
論文 参考訳(メタデータ) (2025-09-23T13:44:58Z) - Adapting Foundation Speech Recognition Models to Impaired Speech: A Semantic Re-chaining Approach for Personalization of German Speech [0.562479170374811]
脳性麻痺や遺伝性障害などの症状による音声障害は、自動音声認識システムに重大な課題をもたらす。
本稿では,ASRモデルをパーソナライズする実用的で軽量なパイプラインを提案し,単語の選択を形式化し,セマンティック・コヒーレンスによる音声障害者データセットを充実させる。
提案手法は,非典型的音声パターンを持つ個人に対するコミュニケーション障壁を低減する可能性を示した。
論文 参考訳(メタデータ) (2025-06-23T15:30:50Z) - Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages [49.31519786009296]
音声変換モデルを英語の変形音声(UASpeech)に微調整し、話者特性と韻律歪みの両方を符号化する。
次に、健康な非英語音声(FLEURS)を非英語の変形性音声に変換する。
生成されたデータは、MMS(Massively Multilingually Speech)と呼ばれる多言語ASRモデルの微調整に使用される。
論文 参考訳(メタデータ) (2025-05-20T20:03:45Z) - Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - RescueSpeech: A German Corpus for Speech Recognition in Search and
Rescue Domain [20.07933161385449]
音声認識は、騒々しく残響な環境ではまだ難しい。
われわれはRescueSpeechというドイツの音声データセットを作成した。
我々の研究は、この挑戦的なシナリオにおける最先端の手法によって達成されたパフォーマンスは、まだ許容できるレベルには達していないことを強調している。
論文 参考訳(メタデータ) (2023-06-06T23:04:22Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。