論文の概要: VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain
- arxiv url: http://arxiv.org/abs/2404.05659v2
- Date: Tue, 28 May 2024 05:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:49:33.827360
- Title: VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain
- Title(参考訳): VietMed:医療領域におけるベトナム語の自動音声認識のためのデータセットとベンチマーク
- Authors: Khai Le-Duc,
- Abstract要約: 医療分野におけるベトナム語音声認識データセットであるVietMedについて紹介する。
VietMedは7つの面で世界最大の公衆医療音声認識データセットである。
我々はベトナムのASR、w2v2-Viet、XLSR-53-Viet向けの最初の大規模事前訓練モデルをリリースする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to privacy restrictions, there's a shortage of publicly available speech recognition datasets in the medical domain. In this work, we present VietMed - a Vietnamese speech recognition dataset in the medical domain comprising 16h of labeled medical speech, 1000h of unlabeled medical speech and 1200h of unlabeled general-domain speech. To our best knowledge, VietMed is by far the world's largest public medical speech recognition dataset in 7 aspects: total duration, number of speakers, diseases, recording conditions, speaker roles, unique medical terms and accents. VietMed is also by far the largest public Vietnamese speech dataset in terms of total duration. Additionally, we are the first to present a medical ASR dataset covering all ICD-10 disease groups and all accents within a country. Moreover, we release the first public large-scale pre-trained models for Vietnamese ASR, w2v2-Viet and XLSR-53-Viet, along with the first public large-scale fine-tuned models for medical ASR. Even without any medical data in unsupervised pre-training, our best pre-trained model XLSR-53-Viet generalizes very well to the medical domain by outperforming state-of-the-art XLSR-53, from 51.8% to 29.6% WER on test set (a relative reduction of more than 40%). All code, data and models are made publicly available: https://github.com/leduckhai/MultiMed.
- Abstract(参考訳): プライバシーの制限により、医療領域で利用可能な音声認識データセットが不足しています。
本研究では,医療領域におけるベトナム語音声認識データセットであるVietMedについて紹介する。
私たちの知る限りでは、VietMedは、合計持続時間、話者数、疾患、記録条件、話者の役割、ユニークな医療用語、アクセントの7つの面で、世界最大である。
VietMedは、ベトナムの公的な音声データセットとしては最大規模である。
さらに,全国のICD-10病群とすべてのアクセントを対象とする医学的ASRデータセットを初めて提示する。
さらに、ベトナムのASR、w2v2-Viet、XLSR-53-Viet向けの最初の大規模事前訓練モデルと、医療用ASRのための最初の大規模微調整モデルをリリースする。
XLSR-53-Vietは、教師なし事前トレーニングの医療データがない場合でも、テストセットにおいて51.8%から29.6%のWER(相対的な40%以上の低下)で最先端のXLSR-53を上回り、医療領域に非常によく一般化する。
すべてのコード、データ、モデルは、https://github.com/leduckhai/MultiMed.comで公開されている。
関連論文リスト
- MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder [1.220481237642298]
MultiMedは、医療分野向けの小型から大規模のASRモデルのコレクションである。
医学的ASRにおける多言語性に関する初の再現可能な研究であり、エンドツーエンドのASRトレーニングのための階層的アブレーション研究を行い、多言語医学的ASRのための最初の言語学的分析を提供する。
論文 参考訳(メタデータ) (2024-09-21T09:05:48Z) - Real-time Speech Summarization for Medical Conversations [1.387448620257867]
医師と患者の会話では、医療関連情報の特定が重要である。
本稿では,産業における実世界のアプリケーションを対象とした,初めてのリアルタイム音声要約システムを提案する。
医療会話のための最初の音声要約データセットであるVietMed-Sumを提示する。
論文 参考訳(メタデータ) (2024-06-22T16:37:51Z) - Medical Spoken Named Entity Recognition [18.348129901298652]
医療領域における最初の音声NERデータセットであるVietMed-NERを紹介する。
様々な最先端の事前学習モデルを用いてベースライン結果を示す。
単に翻訳することで、文字はベトナム語だけでなく他の言語にも適用できる。
論文 参考訳(メタデータ) (2024-06-19T08:39:09Z) - CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。
我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文 参考訳(メタデータ) (2024-06-10T04:07:09Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [94.85518237963535]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and
General Domain ASR [7.487285210738091]
AfriSpeech, 200hrs of Pan-African English speech, 67,577 clips from 2,463 unique speakers across 120 native accents from 13 countries for clinical and general domain ASR。
アフリカン・クリニカルASRに関する調査やベンチマークは公開されておらず、アフリカン・アクセントの大半で音声データは存在しない。
論文 参考訳(メタデータ) (2023-09-30T06:38:43Z) - Unsupervised Pre-Training for Vietnamese Automatic Speech Recognition in
the HYKIST Project [0.0]
先住民と移民の間の言語上の困難は、特に医学領域において、日常的に共通の問題となる。
HYKISTプロジェクトの目的は、ASRとMTとの患者と医師のコミュニケーションを支援する音声翻訳システムを開発することである。
ベトナム語医学領域における会話音声認識タスクのためのASRシステムの構築について述べる。
論文 参考訳(メタデータ) (2023-09-26T21:12:09Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Medical-VLBERT: Medical Visual Language BERT for COVID-19 CT Report
Generation With Alternate Learning [70.71564065885542]
本稿では,医療用ビジュアル言語BERT(Medical-VLBERT)モデルを用いて,新型コロナウイルススキャンの異常を同定する。
このモデルは、知識事前学習と伝達の2つの手順で、代替的な学習戦略を採用する。
COVID-19患者に対する医療報告の自動作成のために,中国語で368例,胸部CTで1104例の検診を行った。
論文 参考訳(メタデータ) (2021-08-11T07:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。