論文の概要: Multilingual BERT language model for medical tasks: Evaluation on domain-specific adaptation and cross-linguality
- arxiv url: http://arxiv.org/abs/2510.27552v1
- Date: Fri, 31 Oct 2025 15:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.150819
- Title: Multilingual BERT language model for medical tasks: Evaluation on domain-specific adaptation and cross-linguality
- Title(参考訳): 医療タスクのための多言語BERT言語モデル:ドメイン固有適応と言語横断性の評価
- Authors: Yinghao Luo, Lang Zhou, Amrish Jhingoer, Klaske Vliegenthart Jongbloed, Carlijn Jordans, Ben Werkhoven, Tom Seinen, Erik van Mulligen, Casper Rokx, Yunlei Li,
- Abstract要約: 本研究では,ドメイン固有コーパスの事前学習が,医療作業におけるモデルパフォーマンスに与える影響について検討した。
私たちはオランダ語、ルーマニア語、スペイン語の3つの言語に焦点を当てています。
- 参考スコア(独自算出の注目度): 1.6594309236462432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multilingual healthcare applications, the availability of domain-specific natural language processing(NLP) tools is limited, especially for low-resource languages. Although multilingual bidirectional encoder representations from transformers (BERT) offers a promising motivation to mitigate the language gap, the medical NLP tasks in low-resource languages are still underexplored. Therefore, this study investigates how further pre-training on domain-specific corpora affects model performance on medical tasks, focusing on three languages: Dutch, Romanian and Spanish. In terms of further pre-training, we conducted four experiments to create medical domain models. Then, these models were fine-tuned on three downstream tasks: Automated patient screening in Dutch clinical notes, named entity recognition in Romanian and Spanish clinical notes. Results show that domain adaptation significantly enhanced task performance. Furthermore, further differentiation of domains, e.g. clinical and general biomedical domains, resulted in diverse performances. The clinical domain-adapted model outperformed the more general biomedical domain-adapted model. Moreover, we observed evidence of cross-lingual transferability. Moreover, we also conducted further investigations to explore potential reasons contributing to these performance differences. These findings highlight the feasibility of domain adaptation and cross-lingual ability in medical NLP. Within the low-resource language settings, these findings can provide meaningful guidance for developing multilingual medical NLP systems to mitigate the lack of training data and thereby improve the model performance.
- Abstract(参考訳): 多言語医療アプリケーションでは、特に低リソース言語では、ドメイン固有自然言語処理(NLP)ツールの利用が制限されている。
変換器(BERT)からの多言語双方向エンコーダ表現は言語ギャップを軽減するための有望なモチベーションを提供するが、低リソース言語における医学的NLPタスクはまだ未熟である。
そこで本研究では,オランダ語,ルーマニア語,スペイン語の3言語に着目し,ドメイン固有コーパスの事前学習が医療作業におけるモデルパフォーマンスに与える影響について検討した。
さらなる事前トレーニングに関して,医療領域モデル作成のための4つの実験を行った。
そして、これらのモデルは、以下の3つの下流のタスクで微調整された: オランダの臨床ノートにおける自動患者スクリーニング、ルーマニアおよびスペインの臨床ノートにおけるエンティティ認識。
その結果、ドメイン適応によりタスク性能が大幅に向上した。
さらに, 臨床, 一般バイオメディカルドメインのさらなる分化は, 様々なパフォーマンスをもたらすことが示唆された。
臨床領域適応モデルは、より一般的な生物医学領域適応モデルよりも優れていた。
さらに,言語間移動性の証拠も観察した。
さらに,これらの性能差に寄与する可能性を探るため,さらなる調査を行った。
以上の結果から,NLPにおけるドメイン適応と言語間能力の可能性が示唆された。
低リソース言語設定内では、これらの知見は、トレーニングデータの欠如を軽減し、モデル性能を向上させるために、多言語医療用NLPシステムの開発に有意義なガイダンスを提供することができる。
関連論文リスト
- Comprehensive Study on German Language Models for Clinical and Biomedical Text Understanding [16.220303664681172]
我々は、翻訳された英語の医療データとドイツの臨床データの3Bトークンから2.4Bトークンを抽出し、いくつかのドイツの医療言語モデルを事前訓練した。
得られたモデルは、名前付きエンティティ認識(NER)、多ラベル分類、抽出質問応答など、様々なドイツの下流タスクで評価された。
本研究は, 臨床モデルとスクラッチからトレーニングした成績を一致させたり, 上回ったりする能力が, 連続事前訓練によって実証されていることを結論する。
論文 参考訳(メタデータ) (2024-04-08T17:24:04Z) - Neural Machine Translation of Clinical Text: An Empirical Investigation
into Multilingual Pre-Trained Language Models and Transfer-Learning [6.822926897514793]
1)臨床症例(CC),2)臨床用語(CT),3)オントロジ概念(OC)の3つのサブタスクの実験結果
ClinSpEn-2022では,英語とスペイン語の臨床領域データの共有タスクにおいて,トップレベルのパフォーマンスを達成した。
WMT21fbモデルを用いて,新しい言語空間をスペイン語で表現する手法について検討した。
論文 参考訳(メタデータ) (2023-12-12T13:26:42Z) - Evaluating Large Language Models for Radiology Natural Language
Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。
本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2023-07-25T17:57:18Z) - Localising In-Domain Adaptation of Transformer-Based Biomedical Language
Models [0.987336898133886]
我々は、英語以外の言語で生物医学的言語モデルを導出するための2つのアプローチを提案する。
1つは、英語リソースのニューラルネットワーク翻訳に基づくもので、品質よりも量を好む。
もう一つは、イタリア語で書かれた高品位で細いスコープのコーパスに基づいており、量よりも質を優先している。
論文 参考訳(メタデータ) (2022-12-20T16:59:56Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。