論文の概要: Biomedical Entity Linking for Dutch: Fine-tuning a Self-alignment BERT Model on an Automatically Generated Wikipedia Corpus
- arxiv url: http://arxiv.org/abs/2405.11941v1
- Date: Mon, 20 May 2024 10:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 13:24:44.740046
- Title: Biomedical Entity Linking for Dutch: Fine-tuning a Self-alignment BERT Model on an Automatically Generated Wikipedia Corpus
- Title(参考訳): オランダにおけるバイオメディカルエンティティリンク: 自動生成ウィキペディアコーパス上での自己調整型BERTモデルの微調整
- Authors: Fons Hartendorp, Tom Seinen, Erik van Mulligen, Suzan Verberne,
- Abstract要約: 本稿では,オランダ語におけるバイオメディカルエンティティリンクモデルについて述べる。
オントロジーにリンクしたオランダの生物医学的実体を文脈でウィキペディアから抽出した。
以上の結果から,英語以外の言語でリンクする生物医学的実体はいまだに困難であることが示唆された。
- 参考スコア(独自算出の注目度): 2.4686585810894477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical entity linking, a main component in automatic information extraction from health-related texts, plays a pivotal role in connecting textual entities (such as diseases, drugs and body parts mentioned by patients) to their corresponding concepts in a structured biomedical knowledge base. The task remains challenging despite recent developments in natural language processing. This paper presents the first evaluated biomedical entity linking model for the Dutch language. We use MedRoBERTa.nl as base model and perform second-phase pretraining through self-alignment on a Dutch biomedical ontology extracted from the UMLS and Dutch SNOMED. We derive a corpus from Wikipedia of ontology-linked Dutch biomedical entities in context and fine-tune our model on this dataset. We evaluate our model on the Dutch portion of the Mantra GSC-corpus and achieve 54.7% classification accuracy and 69.8% 1-distance accuracy. We then perform a case study on a collection of unlabeled, patient-support forum data and show that our model is hampered by the limited quality of the preceding entity recognition step. Manual evaluation of small sample indicates that of the correctly extracted entities, around 65% is linked to the correct concept in the ontology. Our results indicate that biomedical entity linking in a language other than English remains challenging, but our Dutch model can be used to for high-level analysis of patient-generated text.
- Abstract(参考訳): 健康関連テキストからの自動情報抽出における主要な要素であるバイオメディカル・エンティティ・リンクは、構造化バイオメディカル・ナレッジ・ベースにおいて、テキスト・エンティティ(疾患、薬物、患者が言及する身体部分など)を対応する概念に結びつける上で重要な役割を担っている。
自然言語処理の最近の進歩にもかかわらず、この課題は依然として挑戦的だ。
本稿では,オランダ語におけるバイオメディカルエンティティリンクモデルについて述べる。
我々は、MedRoBERTa.nlをベースモデルとし、UMLSとオランダのSNOMEDから抽出したオランダの生物医学オントロジーに基づいて、自己調整による第2フェーズ事前訓練を行う。
我々は、オントロジーにリンクしたオランダのバイオメディカルエンティティのウィキペディアからコーパスを抽出し、このデータセットでモデルを微調整する。
我々は,オランダのマントラ GSC-corpus のモデルを評価し,54.7%の分類精度と69.8%の1距離精度を達成した。
次に,登録されていない患者支援フォーラムデータの収集に関するケーススタディを行い,本モデルが先行するエンティティ認識ステップの限られた品質によって阻害されていることを示す。
小サンプルのマニュアル評価は、正しい抽出された実体の約65%がオントロジーの正しい概念と関連していることを示している。
以上の結果から,英語以外の言語でリンクする生物医学的実体は依然として困難なままであるが,オランダ語モデルは患者生成テキストの高レベルな分析に利用することができる。
関連論文リスト
- Integrating curation into scientific publishing to train AI models [1.6982459897303823]
我々は,複数モーダルデータキュレーションを学術出版プロセスに組み込んで,セグメント化された図形パネルやキャプションに注釈を付ける。
SourceData-NLPというデータセットには、620,000以上の注釈付きバイオメディカルエンティティが含まれている。
我々は、名前付き認識、図形キャプションを構成パネルに分割すること、コンテキスト依存型セマンティックタスクを用いて、AIモデルをトレーニングするためのデータセットの有用性を評価する。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - Exploring the In-context Learning Ability of Large Language Model for
Biomedical Concept Linking [4.8882241537236455]
本研究では,生物医学的概念リンクのための大規模モデルのコンテキスト内学習機能を活用する手法について検討する。
提案手法は2段階のレトリーブ・アンド・ランク・フレームワークを採用する。
BC5CDRの病体正規化では90.%、化学体正規化では94.7%の精度を達成した。
論文 参考訳(メタデータ) (2023-07-03T16:19:50Z) - Biomedical Language Models are Robust to Sub-optimal Tokenization [30.175714262031253]
現代のバイオメディカル言語モデル(LM)は、標準的なドメイン固有のトークン化器を用いて事前訓練されている。
より正確なバイオメディカルトークン化器を用いたバイオメディカルLMの事前トレーニングでは,言語モデルの実体表現品質が向上しないことがわかった。
論文 参考訳(メタデータ) (2023-06-30T13:35:24Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - RuBioRoBERTa: a pre-trained biomedical language model for Russian
language biomedical text mining [117.56261821197741]
ロシア語生物医学テキストマイニングのためのBERTベースのモデルをいくつか提示する。
これらのモデルは、ロシアの生物医学領域で自由に利用できるテキストのコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2022-04-08T09:18:59Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Automated tabulation of clinical trial results: A joint entity and
relation extraction approach with transformer-based language representations [5.825190876052148]
本稿では,2つの言語処理タスク間で問題を分解し,エビデンス表の自動生成について検討する。
本稿では,実践成果を報告するRCT要約文の自動集計に着目する。
これらのモデルを訓練し、試験するために、6つの疾患領域から600近い結果文を含む新しいゴールドスタンダードコーパスが開発された。
論文 参考訳(メタデータ) (2021-12-10T15:26:43Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。