論文の概要: MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder
- arxiv url: http://arxiv.org/abs/2409.14074v2
- Date: Thu, 09 Jan 2025 10:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:56:34.439391
- Title: MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder
- Title(参考訳): MultiMed: Attention Encoder Decoderによる多言語医療音声認識
- Authors: Khai Le-Duc, Phuc Phan, Tan-Hanh Pham, Bach Phan Tat, Minh-Huong Ngo, Truong-Son Hy,
- Abstract要約: 我々はMultiMedを紹介した。MultiMedは、マルチリンガルな医療ASRデータセットであり、小型から大規模の医療ASRモデルの最初のコレクションである。
私たちの知る限り、MultiMedは主要なベンチマーク全体にわたって世界最大の医療ASRデータセットです。
本稿では,再現性のある経験的ベースライン,モノリンガル性・多言語性分析,注意デコーダ(AED)とハイブリッド比較研究,AEDのレイヤーワイドアブレーション研究,多言語医学的ASRのための言語分析を含む,医学的ASRのための最初の多言語性研究について紹介する。
- 参考スコア(独自算出の注目度): 1.220481237642298
- License:
- Abstract: Multilingual automatic speech recognition (ASR) in the medical domain serves as a foundational task for various downstream applications such as speech translation, spoken language understanding, and voice-activated assistants. This technology enhances patient care by enabling efficient communication across language barriers, alleviating specialized workforce shortages, and facilitating improved diagnosis and treatment, particularly during pandemics. In this work, we introduce MultiMed, the first multilingual medical ASR dataset, along with the first collection of small-to-large end-to-end medical ASR models, spanning five languages: Vietnamese, English, German, French, and Mandarin Chinese. To our best knowledge, MultiMed stands as the world's largest medical ASR dataset across all major benchmarks: total duration, number of recording conditions, number of accents, and number of speaking roles. Furthermore, we present the first multilinguality study for medical ASR, which includes reproducible empirical baselines, a monolinguality-multilinguality analysis, Attention Encoder Decoder (AED) vs Hybrid comparative study, a layer-wise ablation study for the AED, and a linguistic analysis for multilingual medical ASR. All code, data, and models are available online: https://github.com/leduckhai/MultiMed/tree/master/MultiMed
- Abstract(参考訳): 医療領域における多言語自動音声認識(ASR)は、音声翻訳、音声言語理解、音声アクティベートアシスタントなど、様々な下流アプリケーションのための基礎的なタスクとして機能する。
この技術は、言語障壁間の効率的なコミュニケーションを可能にし、特別な労働力不足を緩和し、特にパンデミック時の診断と治療の改善を促進することで、患者のケアを強化する。
本研究では,ベトナム語,英語,ドイツ語,フランス語,中国語の5言語にまたがる,多言語で最初の医療用ASRデータセットであるMultiMedを紹介した。
私たちの知る限り、MultiMedは、全期間、記録条件の数、アクセントの数、話す役割の数など、すべての主要なベンチマークで世界最大の医療ASRデータセットである。
さらに,再現性のある経験的ベースライン,モノリンガル性・多重性分析,注意エンコーダデコーダ(AED)とハイブリッド比較研究,AEDの階層的アブレーション研究,多言語医学的ASRのための言語分析を含む,医学的ASRのための最初の多言語性研究について述べる。
すべてのコード、データ、モデルはオンラインで入手できる。
関連論文リスト
- BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities [36.30252230403839]
BiMediX2はバイリンガル(アラビア語-英語)バイオメディカル・エクスペルト・大型マルチモーダル・モデル(LMM)である。
テキストと視覚機能を統合して、英語とアラビア語の両方でのシームレスな対話を容易にし、テキストベースの入力と医療画像を含むマルチターン会話をサポートする。
BiMediX2はテキストベースとイメージベースの両方のタスクでベンチマークされており、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-10T18:59:35Z) - Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks [13.016940516468674]
本研究の目的は,医学的MLLMの解剖学的領域全体を理解する能力を高めることである。
本稿では,最初のバイリンガル・ジェネリスト医療用AIシステムである領域認識型医療用MLLM MedRegAを提案する。
我々のモデルは、バイリンガル設定における様々な医療ビジョン言語タスクにおける強力なパフォーマンスを達成するだけでなく、マルチモーダル・メディカルスキャンにおける構造を認識し、検出することができる。
論文 参考訳(メタデータ) (2024-10-24T02:55:41Z) - WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation [4.149844666297669]
マルチモーダル/ビジョン言語モデル(VLM)は、世界中の医療分野でますます普及している。
既存のデータセットはテキストのみであり、言語や国の限られたサブセットで利用可能である。
WorldMedQA-Vには、4カ国の医療画像と組み合わせて568のラベル付き多重選択QAが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:31:24Z) - Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain [19.58987478434808]
我々は、医療領域における最初のオープンソーステキストからテキストへの多言語モデルであるMedical mT5を提示する。
包括的な評価では、Medical mT5はエンコーダと、スペイン語、フランス語、イタリア語のベンチマークで同等の大きさのテキスト・テキスト・モデルの両方を上回っている。
論文 参考訳(メタデータ) (2024-04-11T10:01:32Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [90.3257333861513]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。