論文の概要: EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural
Language Processing
- arxiv url: http://arxiv.org/abs/2306.07373v1
- Date: Mon, 12 Jun 2023 18:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 16:09:31.525784
- Title: EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural
Language Processing
- Title(参考訳): EriBERTa: 臨床自然言語処理のためのバイリンガル事前学習言語モデル
- Authors: Iker de la Iglesia and Aitziber Atutxa and Koldo Gojenola and Ander
Barrena
- Abstract要約: 広汎な医療・臨床コーパスに基づくバイリンガルドメイン特化言語モデルであるEriBERTaを紹介した。
EriBERTaは、臨床領域における以前のスペイン語モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.370481325034443
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The utilization of clinical reports for various secondary purposes, including
health research and treatment monitoring, is crucial for enhancing patient
care. Natural Language Processing (NLP) tools have emerged as valuable assets
for extracting and processing relevant information from these reports. However,
the availability of specialized language models for the clinical domain in
Spanish has been limited.
In this paper, we introduce EriBERTa, a bilingual domain-specific language
model pre-trained on extensive medical and clinical corpora. We demonstrate
that EriBERTa outperforms previous Spanish language models in the clinical
domain, showcasing its superior capabilities in understanding medical texts and
extracting meaningful information. Moreover, EriBERTa exhibits promising
transfer learning abilities, allowing for knowledge transfer from one language
to another. This aspect is particularly beneficial given the scarcity of
Spanish clinical data.
- Abstract(参考訳): 医療研究や治療モニタリングを含む各種二次的目的のための臨床報告書の活用は,患者ケアの充実に不可欠である。
自然言語処理(NLP)ツールはこれらのレポートから関連情報を抽出・処理するための貴重な資産として登場した。
しかし、スペイン語における臨床ドメインのための専門言語モデルの可用性は限られている。
本稿では,広汎な医療・臨床コーパスに基づくバイリンガルドメイン特化言語モデルであるEriBERTaを紹介する。
EriBERTaは、臨床領域における以前のスペイン語モデルよりも優れており、医用テキストの理解や意味のある情報抽出における優れた能力を示している。
さらに、EriBERTaは有望な伝達学習能力を示し、ある言語から別の言語への知識伝達を可能にする。
スペインの臨床データが少ないことから、この側面は特に有益である。
関連論文リスト
- Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [104.96990850774566]
我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。
我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。
実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
論文 参考訳(メタデータ) (2024-10-10T11:23:18Z) - Comprehensive Study on German Language Models for Clinical and Biomedical Text Understanding [16.220303664681172]
我々は、翻訳された英語の医療データとドイツの臨床データの3Bトークンから2.4Bトークンを抽出し、いくつかのドイツの医療言語モデルを事前訓練した。
得られたモデルは、名前付きエンティティ認識(NER)、多ラベル分類、抽出質問応答など、様々なドイツの下流タスクで評価された。
本研究は, 臨床モデルとスクラッチからトレーニングした成績を一致させたり, 上回ったりする能力が, 連続事前訓練によって実証されていることを結論する。
論文 参考訳(メタデータ) (2024-04-08T17:24:04Z) - Fine-Tuned Large Language Models for Symptom Recognition from Spanish
Clinical Text [6.918493795610175]
本研究はスペイン医学文献における症状,徴候,所見の検出に関する共通課題である。
オーガナイザがリリースしたデータと、微調整された大きな言語モデルのセットを組み合わせます。
論文 参考訳(メタデータ) (2024-01-28T22:11:25Z) - Neural Machine Translation of Clinical Text: An Empirical Investigation
into Multilingual Pre-Trained Language Models and Transfer-Learning [6.822926897514793]
1)臨床症例(CC),2)臨床用語(CT),3)オントロジ概念(OC)の3つのサブタスクの実験結果
ClinSpEn-2022では,英語とスペイン語の臨床領域データの共有タスクにおいて,トップレベルのパフォーマンスを達成した。
WMT21fbモデルを用いて,新しい言語空間をスペイン語で表現する手法について検討した。
論文 参考訳(メタデータ) (2023-12-12T13:26:42Z) - Multilingual Clinical NER: Translation or Cross-lingual Transfer? [4.4924444466378555]
翻訳に基づく手法は、言語間移動と同じような性能が得られることを示す。
我々はMedNERFを、フランスの医薬品処方薬から抽出した医療用NERテストセットとしてリリースし、英語のデータセットと同じガイドラインで注釈を付した。
論文 参考訳(メタデータ) (2023-06-07T12:31:07Z) - Biomedical and Clinical Language Models for Spanish: On the Benefits of
Domain-Specific Pretraining in a Mid-Resource Scenario [0.05277024349608833]
本研究は, 異なる事前学習選択を実験することにより, スペイン語の生物医学的, 臨床的言語モデルを示す。
モデルをスクラッチからトレーニングするための十分な臨床データがないため,混合ドメイン事前訓練法とクロスドメイン移行法を適用し,優れたバイオクリニカルモデルを構築した。
論文 参考訳(メタデータ) (2021-09-08T12:12:07Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - Pre-training via Leveraging Assisting Languages and Data Selection for
Neural Machine Translation [49.51278300110449]
興味のある言語に対する単言語コーパスの不足を補うために,他の言語の単言語コーパスを活用することを提案する。
低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを活用することで、日本語と英語のモノリンガルコーパスの不足を克服できることが示された。
論文 参考訳(メタデータ) (2020-01-23T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。