Fugu-MT 論文翻訳(概要): MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder

論文の概要: MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder

arxiv url: http://arxiv.org/abs/2409.14074v1
Date: Sat, 21 Sep 2024 09:05:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 03:44:25.403459
Title: MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder
Title（参考訳）: MultiMed: Attention Encoder Decoderによる多言語医療音声認識
Authors: Khai Le-Duc, Phuc Phan, Tan-Hanh Pham, Bach Phan Tat, Minh-Huong Ngo, Truong-Son Hy,
Abstract要約: MultiMedは、医療分野向けの小型から大規模のASRモデルのコレクションである。医学的ASRにおける多言語性に関する初の再現可能な研究であり、エンドツーエンドのASRトレーニングのための階層的アブレーション研究を行い、多言語医学的ASRのための最初の言語学的分析を提供する。
参考スコア（独自算出の注目度）: 1.220481237642298
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multilingual automatic speech recognition (ASR) in the medical domain serves as a foundational task for various downstream applications such as speech translation, spoken language understanding, and voice-activated assistants. This technology enhances patient care by enabling efficient communication across language barriers, alleviating specialized workforce shortages, and facilitating improved diagnosis and treatment, particularly during pandemics. In this work, we introduce MultiMed, a collection of small-to-large end-to-end ASR models for the medical domain, spanning five languages: Vietnamese, English, German, French, and Mandarin Chinese, together with the corresponding real-world ASR dataset. To our best knowledge, MultiMed stands as the largest and the first multilingual medical ASR dataset, in terms of total duration, number of speakers, diversity of diseases, recording conditions, speaker roles, unique medical terms, accents, and ICD-10 codes. Secondly, we establish the empirical baselines, present the first reproducible study of multilinguality in medical ASR, conduct a layer-wise ablation study for end-to-end ASR training, and provide the first linguistic analysis for multilingual medical ASR. All code, data, and models are available online https://github.com/leduckhai/MultiMed/tree/master/MultiMed
Abstract（参考訳）: 医療領域における多言語自動音声認識(ASR)は、音声翻訳、音声言語理解、音声アクティベートアシスタントなど、様々な下流アプリケーションのための基礎的なタスクとして機能する。この技術は、言語障壁間の効率的なコミュニケーションを可能にし、特別な労働力不足を緩和し、特にパンデミック時の診断と治療の改善を促進することで、患者のケアを強化する。本研究では,ベトナム語,英語,ドイツ語,フランス語,中国語の5つの言語にまたがる医療領域を対象とした,小規模から大規模のASRモデルのコレクションであるMultiMedと,それに対応する実世界のASRデータセットを紹介する。私たちの知る限り、MultiMedは、総期間、話者数、疾患の多様性、記録条件、話者の役割、ユニークな医療用語、アクセント、ICD-10コードにおいて、最大かつ最初の多言語医療ASRデータセットである。第2に、経験的ベースラインを確立し、医学的ASRにおける多言語性の最初の再現可能な研究を提示し、エンドツーエンドのASRトレーニングのためのレイヤーワイド・アブレーション研究を行い、多言語医学的ASRのための最初の言語学的分析を提供する。すべてのコード、データ、モデルはオンラインで利用可能である。

関連論文リスト

ViMedCSS: A Vietnamese Medical Code-Switching Speech Dataset & Benchmark [7.798521826811972]
コードスイッチング(英語: Code-switching, CS)とは、ベトナム語が薬物名や手続きなどの英語の言葉を使用する場合である。現在の自動音声認識システムは、ベトナム語の文の中で正しい英語の医学用語を認識するのに苦労している。この研究はベトナムの医療コードスイッチングのための最初のベンチマークを提供する。
論文参考訳（メタデータ） (2026-02-13T13:17:16Z)
MultiMed-ST: Large-scale Many-to-many Multilingual Medical Speech Translation [3.6818524036584686]
MultiMed-STは、5つの言語で全ての翻訳方向をまたがる医療領域のための大規模なSTデータセットである。 290,000のサンプルで、我々のデータセットは最大の医療機械翻訳(MT)データセットである。実証的ベースライン,バイリンガル・マルチリンガル比較研究,エンドツーエンド比較研究,コードスウィッチ分析,量的品質的誤り分析など,ST研究における最も広範な分析研究について紹介する。
論文参考訳（メタデータ） (2025-04-04T15:49:17Z)
MultiConAD: A Unified Multilingual Conversational Dataset for Early Alzheimer's Detection [12.803369138301163]
我々は16の認知症関連会話データセットを統合することでAD検出のための新しい多言語データセットを提案する。第2に、MCIを含む細粒度分類を行い、スパーステキストと高密度テキスト表現を用いて様々な分類器を評価する。第三に、単言語と多言語の設定で実験を行い、ある言語は多言語訓練の恩恵を受ける一方、他の言語は独立してより優れた性能を発揮することを発見した。
論文参考訳（メタデータ） (2025-02-26T15:12:37Z)
LAMA-UT: Language Agnostic Multilingual ASR through Orthography Unification and Language-Specific Transliteration [19.403991814044424]
正書法統一とLAMA-UT(Language-Agnostic Multilingual ASR Pipeline)による言語に依存しないASRパイプラインを提案する。 LAMA-UTは、最小限のデータ量でトレーニングされた最先端モデルのパフォーマンスに適合しながら、言語固有のモジュールなしで動作します。パイプラインはWhisperと比較して45%の相対誤差低減率を実現し,MMSと相容れない性能を示した。
論文参考訳（メタデータ） (2024-12-19T10:39:08Z)
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities [36.30252230403839]
BiMediX2はバイリンガル(アラビア語-英語)バイオメディカル・エクスペルト・大型マルチモーダル・モデル(LMM)である。テキストと視覚機能を統合して、英語とアラビア語の両方でのシームレスな対話を容易にし、テキストベースの入力と医療画像を含むマルチターン会話をサポートする。 BiMediX2はテキストベースとイメージベースの両方のタスクでベンチマークされており、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-12-10T18:59:35Z)
Interpretable Bilingual Multimodal Large Language Model for Diverse Biomedical Tasks [13.016940516468674]
本研究の目的は,医学的MLLMの解剖学的領域全体を理解する能力を高めることである。本稿では,最初のバイリンガル・ジェネリスト医療用AIシステムである領域認識型医療用MLLM MedRegAを提案する。我々のモデルは、バイリンガル設定における様々な医療ビジョン言語タスクにおける強力なパフォーマンスを達成するだけでなく、マルチモーダル・メディカルスキャンにおける構造を認識し、検出することができる。
論文参考訳（メタデータ） (2024-10-24T02:55:41Z)
WorldMedQA-V: a multilingual, multimodal medical examination dataset for multimodal language models evaluation [4.149844666297669]
マルチモーダル/ビジョン言語モデル(VLM)は、世界中の医療分野でますます普及している。既存のデータセットはテキストのみであり、言語や国の限られたサブセットで利用可能である。 WorldMedQA-Vには、4カ国の医療画像と組み合わせて568のラベル付き多重選択QAが含まれている。
論文参考訳（メタデータ） (2024-10-16T16:31:24Z)
Towards Democratizing Multilingual Large Language Models For Medicine Through A Two-Stage Instruction Fine-tuning Approach [6.921012069327385]
オープンソースの多言語医療用大規模言語モデル (LLM) は、様々な地域において言語的に多様な人口を提供する可能性を秘めている。 6言語で200万以上の高品質な医療サンプルを含む2つの多言語命令微調整データセットを導入する。第1段階はMMed-IFTを用いて一般的な医療知識を注入し,第2段階はMMed-IFT-MCを用いたタスク固有の複数選択質問を行う。
論文参考訳（メタデータ） (2024-09-09T15:42:19Z)
Medical mT5: An Open-Source Multilingual Text-to-Text LLM for The Medical Domain [19.58987478434808]
我々は、医療領域における最初のオープンソーステキストからテキストへの多言語モデルであるMedical mT5を提示する。包括的な評価では、Medical mT5はエンコーダと、スペイン語、フランス語、イタリア語のベンチマークで同等の大きさのテキスト・テキスト・モデルの両方を上回っている。
論文参考訳（メタデータ） (2024-04-11T10:01:32Z)
Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。 MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文参考訳（メタデータ） (2024-02-21T17:47:20Z)
BiMediX: Bilingual Medical Mixture of Experts LLM [90.3257333861513]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文参考訳（メタデータ） (2024-02-20T18:59:26Z)
Unsupervised Pre-Training for Vietnamese Automatic Speech Recognition in the HYKIST Project [0.0]
先住民と移民の間の言語上の困難は、特に医学領域において、日常的に共通の問題となる。 HYKISTプロジェクトの目的は、ASRとMTとの患者と医師のコミュニケーションを支援する音声翻訳システムを開発することである。ベトナム語医学領域における会話音声認識タスクのためのASRシステムの構築について述べる。
論文参考訳（メタデータ） (2023-09-26T21:12:09Z)
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文参考訳（メタデータ） (2023-06-01T16:50:07Z)
Simple Yet Effective Neural Ranking and Reranking Baselines for Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文参考訳（メタデータ） (2023-04-03T14:17:00Z)
LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文参考訳（メタデータ） (2022-06-05T04:03:12Z)
Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文参考訳（メタデータ） (2022-03-30T18:09:28Z)
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文参考訳（メタデータ） (2021-06-15T12:25:30Z)
Multilingual and code-switching ASR challenges for low resource Indian languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文参考訳（メタデータ） (2021-04-01T03:37:01Z)
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2020-05-16T22:28:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。