Fugu-MT 論文翻訳(概要): AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR

論文の概要: AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR

arxiv url: http://arxiv.org/abs/2310.00274v1
Date: Sat, 30 Sep 2023 06:38:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 05:34:03.235138
Title: AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR
Title（参考訳）: afrispeech-200:臨床および一般ドメインasrのためのパンアフリカアクセント音声データセット
Authors: Tobi Olatunji, Tejumade Afonja, Aditya Yadavalli, Chris Chinenye Emezue, Sahib Singh, Bonaventure F.P. Dossou, Joanne Osuchukwu, Salomey Osei, Atnafu Lambebo Tonja, Naome Etori, Clinton Mbataku
Abstract要約: AfriSpeech, 200hrs of Pan-African English speech, 67,577 clips from 2,463 unique speakers across 120 native accents from 13 countries for clinical and general domain ASR。アフリカン・クリニカルASRに関する調査やベンチマークは公開されておらず、アフリカン・アクセントの大半で音声データは存在しない。
参考スコア（独自算出の注目度）: 7.487285210738091
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Africa has a very low doctor-to-patient ratio. At very busy clinics, doctors could see 30+ patients per day -- a heavy patient burden compared with developed countries -- but productivity tools such as clinical automatic speech recognition (ASR) are lacking for these overworked clinicians. However, clinical ASR is mature, even ubiquitous, in developed nations, and clinician-reported performance of commercial clinical ASR systems is generally satisfactory. Furthermore, the recent performance of general domain ASR is approaching human accuracy. However, several gaps exist. Several publications have highlighted racial bias with speech-to-text algorithms and performance on minority accents lags significantly. To our knowledge, there is no publicly available research or benchmark on accented African clinical ASR, and speech data is non-existent for the majority of African accents. We release AfriSpeech, 200hrs of Pan-African English speech, 67,577 clips from 2,463 unique speakers across 120 indigenous accents from 13 countries for clinical and general domain ASR, a benchmark test set, with publicly available pre-trained models with SOTA performance on the AfriSpeech benchmark.
Abstract（参考訳）: アフリカは医師対患者比率がとても低い。非常に忙しい診療所では、1日30人以上の患者が診られる可能性があるが、医療自動音声認識(ASR)などの生産性ツールが不足している。しかし、先進国でも臨床 ASR が成熟し、臨床が報告した商業 ASR システムの性能は概ね良好である。さらに、最近の一般ドメインASRの性能は人間の精度に近づいている。しかし、いくつかのギャップが存在する。いくつかの出版物は、音声からテキストへのアルゴリズムによる人種的バイアスを強調し、少数派アクセントのパフォーマンスは著しく遅れている。我々の知る限り、アクセント付きアフリカ臨床ASRに関する公開研究やベンチマークは行われておらず、アフリカのアクセントの大半で音声データは存在しない。 AfriSpeech, 200hrs of Pan-African English speech, 67,577 clips from 2,463 unique speakers across 120 native accents from 13 countries for clinical and general domain ASR, a benchmark test set, with public-trained model with SOTA performance on the AfriSpeech benchmark。

関連論文リスト

Afrispeech-Dialog: A Benchmark Dataset for Spontaneous English Conversations in Healthcare and Beyond [0.0]
Afrispeech-Dialogは、医学的および非医学的アフリカ中心の英語会話を模擬した50のベンチマークデータセットである。長音のアクセント付き音声に対して,最先端話者ダイアリゼーション(SOTA)とASRシステムを評価し,その性能をネイティブアクセントと比較し,10%以上の性能劣化を見出した。
論文参考訳（メタデータ） (2025-02-06T10:33:07Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features [0.4681310436826459]
本稿では,音声認識と自己教師型学習表現の利用について紹介する。実験ではPVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、パーキンソン病の患者に焦点を当てた日本語データセットを作成した。 PVQDの結果, PCCでは0.8, MSEでは0.5と顕著な相関がみられた。
論文参考訳（メタデータ） (2024-08-22T10:22:53Z)
Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance [7.882996636086014]
自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
論文参考訳（メタデータ） (2024-07-19T02:14:17Z)
Performant ASR Models for Medical Entities in Accented Speech [0.9346027495459037]
我々は、93のアフリカアクセントの英語臨床データセットを用いて、複数のASRモデルを厳格に評価した。分析の結果, 単語誤り率 (WER) が低いモデルではあるものの, 臨床的実体の誤差は高く, 患者の安全性に重大なリスクが生じる可能性が示唆された。
論文参考訳（メタデータ） (2024-06-18T08:19:48Z)
VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain [0.0]
医療分野におけるベトナム語音声認識データセットであるVietMedについて紹介する。 VietMedは7つの面で世界最大の公衆医療音声認識データセットである。我々はベトナムのASR、w2v2-Viet、XLSR-53-Viet向けの最初の大規模事前訓練モデルをリリースする。
論文参考訳（メタデータ） (2024-04-08T16:43:52Z)
Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文参考訳（メタデータ） (2024-01-11T04:25:06Z)
Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文参考訳（メタデータ） (2022-06-15T07:20:28Z)
PriMock57: A Dataset Of Primary Care Mock Consultations [66.29154510369372]
本稿では,57件のモック・プライマリ・ケア・コンサルテーションからなる,パブリック・アクセス・高品質データセットの開発について詳述する。我々の研究は、データセットが会話型医療ASRのベンチマークや、テキストからのコンサルティングノート生成にどのように使用できるかを説明する。
論文参考訳（メタデータ） (2022-04-01T10:18:28Z)
Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文参考訳（メタデータ） (2022-01-15T13:02:40Z)
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文参考訳（メタデータ） (2021-06-15T12:25:30Z)
NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文参考訳（メタデータ） (2021-02-10T13:00:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。