論文の概要: EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural
Language Processing
- arxiv url: http://arxiv.org/abs/2306.07373v1
- Date: Mon, 12 Jun 2023 18:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 16:09:31.525784
- Title: EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural
Language Processing
- Title(参考訳): EriBERTa: 臨床自然言語処理のためのバイリンガル事前学習言語モデル
- Authors: Iker de la Iglesia and Aitziber Atutxa and Koldo Gojenola and Ander
Barrena
- Abstract要約: 広汎な医療・臨床コーパスに基づくバイリンガルドメイン特化言語モデルであるEriBERTaを紹介した。
EriBERTaは、臨床領域における以前のスペイン語モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.370481325034443
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The utilization of clinical reports for various secondary purposes, including
health research and treatment monitoring, is crucial for enhancing patient
care. Natural Language Processing (NLP) tools have emerged as valuable assets
for extracting and processing relevant information from these reports. However,
the availability of specialized language models for the clinical domain in
Spanish has been limited.
In this paper, we introduce EriBERTa, a bilingual domain-specific language
model pre-trained on extensive medical and clinical corpora. We demonstrate
that EriBERTa outperforms previous Spanish language models in the clinical
domain, showcasing its superior capabilities in understanding medical texts and
extracting meaningful information. Moreover, EriBERTa exhibits promising
transfer learning abilities, allowing for knowledge transfer from one language
to another. This aspect is particularly beneficial given the scarcity of
Spanish clinical data.
- Abstract(参考訳): 医療研究や治療モニタリングを含む各種二次的目的のための臨床報告書の活用は,患者ケアの充実に不可欠である。
自然言語処理(NLP)ツールはこれらのレポートから関連情報を抽出・処理するための貴重な資産として登場した。
しかし、スペイン語における臨床ドメインのための専門言語モデルの可用性は限られている。
本稿では,広汎な医療・臨床コーパスに基づくバイリンガルドメイン特化言語モデルであるEriBERTaを紹介する。
EriBERTaは、臨床領域における以前のスペイン語モデルよりも優れており、医用テキストの理解や意味のある情報抽出における優れた能力を示している。
さらに、EriBERTaは有望な伝達学習能力を示し、ある言語から別の言語への知識伝達を可能にする。
スペインの臨床データが少ないことから、この側面は特に有益である。
関連論文リスト
- ClinicalMamba: A Generative Clinical Language Model on Longitudinal
Clinical Notes [6.921652448124103]
本研究は,マンバ語モデルの特殊版であるクリニカルマンバについて概説する。
1億3000万のパラメータと280億のパラメータを持つクリニカルマンバは、テキストの長さを延ばす臨床言語をモデル化する上で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-03-09T04:58:25Z) - Towards Building Multilingual Language Model for Medicine [56.469984729667345]
我々は、様々な地域から広く、言語的に多様な聴衆に利益をもたらす、医療のためのオープンソースの多言語言語モデルを開発することを目指している。
MMedCと呼ばれる6つの主要言語を含む約25.5Bトークンを含む多言語医療用コーパスを構築した。
本稿では,MMedBenchと呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
コード、モデルの重み付け、データセットを含むリソースを公開します。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - Fine-Tuned Large Language Models for Symptom Recognition from Spanish
Clinical Text [6.918493795610175]
本研究はスペイン医学文献における症状,徴候,所見の検出に関する共通課題である。
オーガナイザがリリースしたデータと、微調整された大きな言語モデルのセットを組み合わせます。
論文 参考訳(メタデータ) (2024-01-28T22:11:25Z) - Neural Machine Translation of Clinical Text: An Empirical Investigation
into Multilingual Pre-Trained Language Models and Transfer-Learning [6.822926897514793]
1)臨床症例(CC),2)臨床用語(CT),3)オントロジ概念(OC)の3つのサブタスクの実験結果
ClinSpEn-2022では,英語とスペイン語の臨床領域データの共有タスクにおいて,トップレベルのパフォーマンスを達成した。
WMT21fbモデルを用いて,新しい言語空間をスペイン語で表現する手法について検討した。
論文 参考訳(メタデータ) (2023-12-12T13:26:42Z) - Multilingual Clinical NER: Translation or Cross-lingual Transfer? [4.4924444466378555]
翻訳に基づく手法は、言語間移動と同じような性能が得られることを示す。
我々はMedNERFを、フランスの医薬品処方薬から抽出した医療用NERテストセットとしてリリースし、英語のデータセットと同じガイドラインで注釈を付した。
論文 参考訳(メタデータ) (2023-06-07T12:31:07Z) - Biomedical and Clinical Language Models for Spanish: On the Benefits of
Domain-Specific Pretraining in a Mid-Resource Scenario [0.05277024349608833]
本研究は, 異なる事前学習選択を実験することにより, スペイン語の生物医学的, 臨床的言語モデルを示す。
モデルをスクラッチからトレーニングするための十分な臨床データがないため,混合ドメイン事前訓練法とクロスドメイン移行法を適用し,優れたバイオクリニカルモデルを構築した。
論文 参考訳(メタデータ) (2021-09-08T12:12:07Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Pre-training via Leveraging Assisting Languages and Data Selection for
Neural Machine Translation [49.51278300110449]
興味のある言語に対する単言語コーパスの不足を補うために,他の言語の単言語コーパスを活用することを提案する。
低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを活用することで、日本語と英語のモノリンガルコーパスの不足を克服できることが示された。
論文 参考訳(メタデータ) (2020-01-23T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。