論文の概要: ViMedCSS: A Vietnamese Medical Code-Switching Speech Dataset & Benchmark
- arxiv url: http://arxiv.org/abs/2602.12911v1
- Date: Fri, 13 Feb 2026 13:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.959112
- Title: ViMedCSS: A Vietnamese Medical Code-Switching Speech Dataset & Benchmark
- Title(参考訳): ViMedCSS: ベトナムの医療用コード変換音声データセットとベンチマーク
- Authors: Tung X. Nguyen, Nhu Vo, Giang-Son Nguyen, Duy Mai Hoang, Chien Dinh Huynh, Inigo Jauregi Unanue, Massimo Piccardi, Wray Buntine, Dung D. Le,
- Abstract要約: コードスイッチング(英語: Code-switching, CS)とは、ベトナム語が薬物名や手続きなどの英語の言葉を使用する場合である。
現在の自動音声認識システムは、ベトナム語の文の中で正しい英語の医学用語を認識するのに苦労している。
この研究はベトナムの医療コードスイッチングのための最初のベンチマークを提供する。
- 参考スコア(独自算出の注目度): 7.798521826811972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CS), which is when Vietnamese speech uses English words like drug names or procedures, is a common phenomenon in Vietnamese medical communication. This creates challenges for Automatic Speech Recognition (ASR) systems, especially in low-resource languages like Vietnamese. Current most ASR systems struggle to recognize correctly English medical terms within Vietnamese sentences, and no benchmark addresses this challenge. In this paper, we construct a 34-hour \textbf{Vi}etnamese \textbf{Med}ical \textbf{C}ode-\textbf{S}witching \textbf{S}peech dataset (ViMedCSS) containing 16,576 utterances. Each utterance includes at least one English medical term drawn from a curated bilingual lexicon covering five medical topics. Using this dataset, we evaluate several state-of-the-art ASR models and examine different specific fine-tuning strategies for improving medical term recognition to investigate the best approach to solve in the dataset. Experimental results show that Vietnamese-optimized models perform better on general segments, while multilingual pretraining helps capture English insertions. The combination of both approaches yields the best balance between overall and code-switched accuracy. This work provides the first benchmark for Vietnamese medical code-switching and offers insights into effective domain adaptation for low-resource, multilingual ASR systems.
- Abstract(参考訳): コードスイッチング(英語: Code-switching, CS)とは、ベトナム語が薬物名や手続きなどの英語の言葉を使う場合のことであり、ベトナムの医療コミュニケーションにおいて一般的な現象である。
これは、特にベトナムのような低リソース言語において、自動音声認識(ASR)システムの課題を生み出します。
現在のほとんどのASRシステムは、ベトナム語の文の中で正しい英語の医学用語を認識するのに苦労しており、この課題に対処するベンチマークは存在しない。
本稿では,16,576発の音声を含む34-hour \textbf{Vi}etnamese \textbf{Med}ical \textbf{C}ode-\textbf{S}witching \textbf{S}peech dataset (ViMedCSS)を構築する。
それぞれの発声は、5つの医療トピックをカバーする2言語辞書から引き出された少なくとも1つの英語の医療用語を含む。
このデータセットを用いて、いくつかの最先端のASRモデルを評価し、医学用語認識を改善するための異なる特定の微調整戦略を調べ、データセットで解決すべき最良のアプローチについて検討する。
実験の結果,ベトナム語に最適化されたモデルは一般的なセグメントでより優れた性能を示し,多言語事前学習は英語の挿入を捉えるのに役立つことがわかった。
両方のアプローチを組み合わせることで、全体的な精度とコードの変更精度のバランスが良くなります。
この研究はベトナムの医療用コードスイッチングのための最初のベンチマークを提供し、低リソース多言語ASRシステムに対する効果的なドメイン適応に関する洞察を提供する。
関連論文リスト
- Multilingual LLM Prompting Strategies for Medical English-Vietnamese Machine Translation [7.238888652441979]
医療用英語-ベトナム語機械翻訳(En-Vi MT)は、ベトナムにおける医療アクセスとコミュニケーションに不可欠である。
我々は,MedEVデータセット上で6つの多言語LLM(0.5B-9Bパラメータ)のプロンプト戦略を評価する。
論文 参考訳(メタデータ) (2025-09-19T06:06:36Z) - MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder [5.3903790635541515]
我々はMultiMedを紹介した。MultiMedは、マルチリンガルな医療ASRデータセットであり、小型から大規模の医療ASRモデルの最初のコレクションである。
私たちの知る限り、MultiMedは主要なベンチマーク全体にわたって世界最大の医療ASRデータセットです。
本稿では, 再現可能な経験ベースライン, モノリンガル性・多言語性分析, 注意復号法(AED)とハイブリッド比較法(Hybrid comparative study)と言語学的分析を含む, 医療ASRにおける最初の多言語性研究について紹介する。
論文 参考訳(メタデータ) (2024-09-21T09:05:48Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development [1.4315915057750197]
ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。
本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:53Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。