論文の概要: AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and
General Domain ASR
- arxiv url: http://arxiv.org/abs/2310.00274v1
- Date: Sat, 30 Sep 2023 06:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:34:03.235138
- Title: AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and
General Domain ASR
- Title(参考訳): afrispeech-200:臨床および一般ドメインasrのためのパンアフリカアクセント音声データセット
- Authors: Tobi Olatunji, Tejumade Afonja, Aditya Yadavalli, Chris Chinenye
Emezue, Sahib Singh, Bonaventure F.P. Dossou, Joanne Osuchukwu, Salomey Osei,
Atnafu Lambebo Tonja, Naome Etori, Clinton Mbataku
- Abstract要約: AfriSpeech, 200hrs of Pan-African English speech, 67,577 clips from 2,463 unique speakers across 120 native accents from 13 countries for clinical and general domain ASR。
アフリカン・クリニカルASRに関する調査やベンチマークは公開されておらず、アフリカン・アクセントの大半で音声データは存在しない。
- 参考スコア(独自算出の注目度): 7.487285210738091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Africa has a very low doctor-to-patient ratio. At very busy clinics, doctors
could see 30+ patients per day -- a heavy patient burden compared with
developed countries -- but productivity tools such as clinical automatic speech
recognition (ASR) are lacking for these overworked clinicians. However,
clinical ASR is mature, even ubiquitous, in developed nations, and
clinician-reported performance of commercial clinical ASR systems is generally
satisfactory. Furthermore, the recent performance of general domain ASR is
approaching human accuracy. However, several gaps exist. Several publications
have highlighted racial bias with speech-to-text algorithms and performance on
minority accents lags significantly. To our knowledge, there is no publicly
available research or benchmark on accented African clinical ASR, and speech
data is non-existent for the majority of African accents. We release
AfriSpeech, 200hrs of Pan-African English speech, 67,577 clips from 2,463
unique speakers across 120 indigenous accents from 13 countries for clinical
and general domain ASR, a benchmark test set, with publicly available
pre-trained models with SOTA performance on the AfriSpeech benchmark.
- Abstract(参考訳): アフリカは医師対患者比率がとても低い。
非常に忙しい診療所では、1日30人以上の患者が診られる可能性があるが、医療自動音声認識(ASR)などの生産性ツールが不足している。
しかし、先進国でも臨床 ASR が成熟し、臨床が報告した商業 ASR システムの性能は概ね良好である。
さらに、最近の一般ドメインASRの性能は人間の精度に近づいている。
しかし、いくつかのギャップが存在する。
いくつかの出版物は、音声からテキストへのアルゴリズムによる人種的バイアスを強調し、少数派アクセントのパフォーマンスは著しく遅れている。
我々の知る限り、アクセント付きアフリカ臨床ASRに関する公開研究やベンチマークは行われておらず、アフリカのアクセントの大半で音声データは存在しない。
AfriSpeech, 200hrs of Pan-African English speech, 67,577 clips from 2,463 unique speakers across 120 native accents from 13 countries for clinical and general domain ASR, a benchmark test set, with public-trained model with SOTA performance on the AfriSpeech benchmark。
関連論文リスト
- VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain [0.0]
医療分野におけるベトナム語音声認識データセットであるVietMedについて紹介する。
VietMedは7つの面で世界最大の公衆医療音声認識データセットである。
我々はベトナムのASR、w2v2-Viet、XLSR-53-Viet向けの最初の大規模事前訓練モデルをリリースする。
論文 参考訳(メタデータ) (2024-04-08T16:43:52Z) - Automatic Speech Recognition (ASR) for the Diagnosis of pronunciation of
Speech Sound Disorders in Korean children [4.840474991678558]
本研究では,音声障害児の発音障害を診断するための音声認識モデルを提案する。
モデルの単語の発音予測は、約90%の精度で人間のアノテーションと一致した。
論文 参考訳(メタデータ) (2024-03-13T02:20:05Z) - Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。
AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。
AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文 参考訳(メタデータ) (2024-01-11T04:25:06Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Cross-lingual Self-Supervised Speech Representations for Improved
Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。
我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。
結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-04T17:36:01Z) - PriMock57: A Dataset Of Primary Care Mock Consultations [66.29154510369372]
本稿では,57件のモック・プライマリ・ケア・コンサルテーションからなる,パブリック・アクセス・高品質データセットの開発について詳述する。
我々の研究は、データセットが会話型医療ASRのベンチマークや、テキストからのコンサルティングノート生成にどのように使用できるかを説明する。
論文 参考訳(メタデータ) (2022-04-01T10:18:28Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。