論文の概要: Neural Machine Translation of Clinical Text: An Empirical Investigation
into Multilingual Pre-Trained Language Models and Transfer-Learning
- arxiv url: http://arxiv.org/abs/2312.07250v1
- Date: Tue, 12 Dec 2023 13:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:02:26.086345
- Title: Neural Machine Translation of Clinical Text: An Empirical Investigation
into Multilingual Pre-Trained Language Models and Transfer-Learning
- Title(参考訳): 臨床テキストのニューラルマシン翻訳:多言語事前学習言語モデルとトランスファーラーニングに関する実証的研究
- Authors: Lifeng Han, Serge Gladkoff, Gleb Erofeev, Irina Sorokina, Betty
Galiano, Goran Nenadic
- Abstract要約: 我々は,多言語ニューラルネットワークモデルを用いて臨床テキスト機械翻訳について検討する。
また,大規模な多言語事前学習言語モデルに基づく移動学習手法を用いて実験を行った。
ClinSpEn-2022では,英語とスペイン語の臨床領域データの共有タスクにおいて,トップレベルのパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 6.822926897514793
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We conduct investigations on clinical text machine translation by examining
multilingual neural network models using deep learning such as Transformer
based structures. Furthermore, to address the language resource imbalance
issue, we also carry out experiments using a transfer learning methodology
based on massive multilingual pre-trained language models (MMPLMs). The
experimental results on three subtasks including 1) clinical case (CC), 2)
clinical terminology (CT), and 3) ontological concept (OC) show that our models
achieved top-level performances in the ClinSpEn-2022 shared task on
English-Spanish clinical domain data. Furthermore, our expert-based human
evaluations demonstrate that the small-sized pre-trained language model (PLM)
won over the other two extra-large language models by a large margin, in the
clinical domain fine-tuning, which finding was never reported in the field.
Finally, the transfer learning method works well in our experimental setting
using the WMT21fb model to accommodate a new language space Spanish that was
not seen at the pre-training stage within WMT21fb itself, which deserves more
exploitation for clinical knowledge transformation, e.g. to investigate into
more languages. These research findings can shed some light on domain-specific
machine translation development, especially in clinical and healthcare fields.
Further research projects can be carried out based on our work to improve
healthcare text analytics and knowledge transformation.
- Abstract(参考訳): トランスフォーマー構造などの深層学習を用いた多言語ニューラルネットモデルを用いて,臨床用テキスト機械翻訳の検討を行う。
さらに,言語資源の不均衡問題に対処するために,多言語事前学習言語モデル(MMPLM)に基づく移動学習手法を用いた実験を行った。
3つのサブタスクに関する実験結果
1)臨床症例(CC)
2)臨床用語(CT)、および
3) オントロジ概念 (OC) は, ClinSpEn-2022における英語とスペイン語の臨床領域データの共有タスクにおいて, トップレベルのパフォーマンスを達成したことを示す。
さらに, 専門家による人体評価の結果, 臨床領域の微調整において, PLMが他の2つの大言語モデルよりも大きな差で勝利したことが明らかとなった。
最後に, 転写学習法は, WMT21fbモデルを用いて, WMT21fb自体の事前学習段階では見られなかった新しい言語空間のスペイン語に対応し, より多くの言語を調査するなど, 臨床知識変換の活用に適している。
これらの研究成果は、特に臨床や医療の分野で、ドメイン固有の機械翻訳の開発に光を当てることができる。
医療用テキスト分析と知識変換を改善するために,本研究に基づいてさらなる研究プロジェクトを実施できる。
関連論文リスト
- UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for
Biomedical Entity Recognition [4.865221751784403]
この研究は、UMLSからテキストシーケンスを抽出することにより、バイオメディカルトランスフォーマーエンコーダLMの言語表現を強化するためのデータ中心パラダイムに寄与する。
予め訓練したLMの拡張およびスクラッチからのトレーニングによる実験の結果から,複数の生物医学的,臨床的な名前付きエンティティ認識(NER)タスクにおける下流性能の向上が示された。
論文 参考訳(メタデータ) (2023-07-20T18:08:34Z) - EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural
Language Processing [2.370481325034443]
広汎な医療・臨床コーパスに基づくバイリンガルドメイン特化言語モデルであるEriBERTaを紹介した。
EriBERTaは、臨床領域における以前のスペイン語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-12T18:56:25Z) - Developing a general-purpose clinical language inference model from a
large corpus of clinical notes [0.30586855806896046]
カリフォルニア大学サンフランシスコ校(UCSF)で著述された7500万の同定された臨床記録を多種多様な同定コーパスを用いて,BERTモデルからBi Domain Decoderを訓練した。
本モデルは,UCSFデータを用いた2つのタスクのシステム内評価において,これらのモデルと同等の大きさのバイオメディカル言語モデルと同等の性能を発揮した。
論文 参考訳(メタデータ) (2022-10-12T20:08:45Z) - Investigating Massive Multilingual Pre-Trained Machine Translation
Models for Clinical Domain via Transfer Learning [11.571189144910521]
本研究は,MMPLMが臨床ドメイン機械翻訳(MT)に適用可能かどうかを,転写学習を通じて完全に見えない言語に適用できるかどうかを検討する。
近年、多言語事前学習言語モデル (MMPLM) が開発され、下流タスクのために獲得した超能力と事前知識が実証されている。
論文 参考訳(メタデータ) (2022-10-12T10:19:44Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z) - Biomedical and Clinical Language Models for Spanish: On the Benefits of
Domain-Specific Pretraining in a Mid-Resource Scenario [0.05277024349608833]
本研究は, 異なる事前学習選択を実験することにより, スペイン語の生物医学的, 臨床的言語モデルを示す。
モデルをスクラッチからトレーニングするための十分な臨床データがないため,混合ドメイン事前訓練法とクロスドメイン移行法を適用し,優れたバイオクリニカルモデルを構築した。
論文 参考訳(メタデータ) (2021-09-08T12:12:07Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。