論文の概要: INSIGHTBUDDY-AI: Medication Extraction and Entity Linking using Large Language Models and Ensemble Learning
- arxiv url: http://arxiv.org/abs/2409.19467v1
- Date: Sat, 28 Sep 2024 22:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:07:28.752770
- Title: INSIGHTBUDDY-AI: Medication Extraction and Entity Linking using Large Language Models and Ensemble Learning
- Title(参考訳): InSIGHTBUDDY-AI:大規模言語モデルとアンサンブル学習を用いたメディケイト抽出とエンティティリンク
- Authors: Pablo Romero, Lifeng Han, Goran Nenadic,
- Abstract要約: 医療用NLP研究において, 医療用NLPの抽出とマイニングが重要な役割を担っている。
本研究では,薬品のテキストマイニング作業における現状のLCMとその関連属性,例えば投与量,経路,強度,副作用について検討する。
アンサンブル学習の結果,個々の微調整ベースモデルBERT, RoBERTa, RoBERTa-L, BioBERT, BioClinicalBERT, BioMedRoBERTa, ClinicalBERT, PubMedBERTよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 6.849511893206566
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medication Extraction and Mining play an important role in healthcare NLP research due to its practical applications in hospital settings, such as their mapping into standard clinical knowledge bases (SNOMED-CT, BNF, etc.). In this work, we investigate state-of-the-art LLMs in text mining tasks on medications and their related attributes such as dosage, route, strength, and adverse effects. In addition, we explore different ensemble learning methods (\textsc{Stack-Ensemble} and \textsc{Voting-Ensemble}) to augment the model performances from individual LLMs. Our ensemble learning result demonstrated better performances than individually fine-tuned base models BERT, RoBERTa, RoBERTa-L, BioBERT, BioClinicalBERT, BioMedRoBERTa, ClinicalBERT, and PubMedBERT across general and specific domains. Finally, we build up an entity linking function to map extracted medical terminologies into the SNOMED-CT codes and the British National Formulary (BNF) codes, which are further mapped to the Dictionary of Medicines and Devices (dm+d), and ICD. Our model's toolkit and desktop applications are publicly available at \url{https://github.com/HECTA-UoM/ensemble-NER}.
- Abstract(参考訳): 医学的NLP研究において, 標準臨床知識ベース(SNOMED-CT, BNFなど)へのマッピングなど, 病院環境における実践的応用により, 医療的NLP研究において重要な役割を担っている。
本研究では,薬品のテキストマイニング作業における現状のLCMとその関連属性,例えば投与量,経路,強度,副作用について検討する。
さらに,異なるアンサンブル学習手法(\textsc{Stack-Ensemble} と \textsc{Voting-Ensemble} )を探索し,個々の LLM からモデル性能を増強する。
アンサンブル学習の結果,個々の微調整ベースモデル BERT, RoBERTa, RoBERTa-L, BioBERT, BioClinicalBERT, BioMedRoBERTa, ClinicalBERT, PubMedBERT よりも優れた性能を示した。
最後に、抽出した医療用語をSNOMED-CTコードとBNFコードにマッピングするエンティティリンク機能を構築し、さらに医学・デバイス辞典(dm+d)やICDにマッピングする。
私たちのモデルのツールキットとデスクトップアプリケーションは、 \url{https://github.com/HECTA-UoM/ensemble-NER}で公開されています。
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Exploring the Effectiveness of Instruction Tuning in Biomedical Language
Processing [19.41164870575055]
本研究では,バイオメディカル言語処理における指導指導の可能性について検討する。
約20,000ドルのインストラクション中心のサンプルからなるデータセットで訓練された包括的,命令ベースのモデルを提案する。
論文 参考訳(メタデータ) (2023-12-31T20:02:10Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Language Models sounds the Death Knell of Knowledge Graphs [0.0]
ディープラーニングに基づくNLP、特にLarge Language Models(LLM)は広く受け入れられており、多くのアプリケーションで広く使われている。
BioBERTとMed-BERTは医療分野向けに事前訓練された言語モデルである。
本稿では、知識グラフを用いることは、この領域の問題を解決する最善の解決策ではない、と論じる。
論文 参考訳(メタデータ) (2023-01-10T14:20:15Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Towards Incorporating Entity-specific Knowledge Graph Information in
Predicting Drug-Drug Interactions [1.14219428942199]
本稿では,他のバイオメディカル・エンティティとの相互作用から得られる薬物の埋め込みと,ドメイン固有のBioBERT埋め込みに基づくRCアーキテクチャを組み合わせる新しい手法であるBERTKG-DDIを提案する。
DDIExtraction 2013 コーパスで行った実験では、この戦略が他のベースラインアーキテクチャを4.1%マクロF1スコアで改善することを明確に示している。
論文 参考訳(メタデータ) (2020-12-21T06:44:32Z) - UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual
Embeddings Using the Unified Medical Language System Metathesaurus [73.86656026386038]
事前学習プロセス中にドメイン知識を統合するコンテキスト埋め込みモデルであるUmlsBERTを紹介する。
これらの2つの戦略を適用することで、UmlsBERTは、臨床領域の知識を単語埋め込みにエンコードし、既存のドメイン固有モデルより優れている。
論文 参考訳(メタデータ) (2020-10-20T15:56:31Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。