論文の概要: Pre-trained Language Models and Few-shot Learning for Medical Entity Extraction
- arxiv url: http://arxiv.org/abs/2504.04385v1
- Date: Sun, 06 Apr 2025 06:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:40.089500
- Title: Pre-trained Language Models and Few-shot Learning for Medical Entity Extraction
- Title(参考訳): 医学エンティティ抽出のための事前学習言語モデルとFew-shot Learning
- Authors: Xiaokai Wang, Guiran Liu, Binrong Zhu, Jacky He, Hongye Zheng, Hanlu Zhang,
- Abstract要約: 本研究では,Transformer を用いた医療機関抽出手法を提案する。
医療用テキストの専門性や複雑さを考慮すると、様々な事前訓練された言語モデルの性能を比較する。
わずかながらの学習は、医療機関抽出の精度を高めることができる。
- 参考スコア(独自算出の注目度): 2.9687381456164004
- License:
- Abstract: This study proposes a medical entity extraction method based on Transformer to enhance the information extraction capability of medical literature. Considering the professionalism and complexity of medical texts, we compare the performance of different pre-trained language models (BERT, BioBERT, PubMedBERT, ClinicalBERT) in medical entity extraction tasks. Experimental results show that PubMedBERT achieves the best performance (F1-score = 88.8%), indicating that a language model pre-trained on biomedical literature is more effective in the medical domain. In addition, we analyze the impact of different entity extraction methods (CRF, Span-based, Seq2Seq) and find that the Span-based approach performs best in medical entity extraction tasks (F1-score = 88.6%). It demonstrates superior accuracy in identifying entity boundaries. In low-resource scenarios, we further explore the application of Few-shot Learning in medical entity extraction. Experimental results show that even with only 10-shot training samples, the model achieves an F1-score of 79.1%, verifying the effectiveness of Few-shot Learning under limited data conditions. This study confirms that the combination of pre-trained language models and Few-shot Learning can enhance the accuracy of medical entity extraction. Future research can integrate knowledge graphs and active learning strategies to improve the model's generalization and stability, providing a more effective solution for medical NLP research. Keywords- Natural Language Processing, medical named entity recognition, pre-trained language model, Few-shot Learning, information extraction, deep learning
- Abstract(参考訳): 本研究では, 医療文献の情報抽出能力を高めるために, Transformer を用いた医療機関抽出手法を提案する。
医療用テキストの専門性と複雑さを考慮し,医療機関抽出作業における各種事前学習言語モデル(BERT,BioBERT,PubMedBERT,CricerBERT)の性能を比較した。
実験の結果,PubMedBERTが最高の成績(F1-score = 88.8%)を達成し,バイオメディカル文献で事前学習した言語モデルの方が医療領域でより効果的であることが示唆された。
さらに、異なるエンティティ抽出方法(CRF、Span-based、Seq2Seq)の影響を分析し、Span-basedアプローチが医療エンティティ抽出タスク(F1-score = 88.6%)において最適であることを示す。
これは、エンティティ境界を識別する上で、より優れた精度を示す。
低リソースシナリオでは、医療エンティティ抽出におけるFew-shot Learningの適用をさらに検討する。
実験結果から,10ショットのトレーニングサンプルだけで79.1%のF1スコアを達成し,限られたデータ条件下でのFew-shot Learningの有効性を検証した。
本研究は,事前学習言語モデルとFew-shot Learningの組み合わせによって,医療機関抽出の精度が向上することを確認する。
将来の研究は、知識グラフとアクティブラーニング戦略を統合して、モデルの一般化と安定性を改善し、医療NLP研究のためのより効果的なソリューションを提供する。
キーワード-自然言語処理、医学名実体認識、事前訓練言語モデル、Few-shot Learning、情報抽出、ディープラーニング
関連論文リスト
- Towards Efficient Patient Recruitment for Clinical Trials: Application of a Prompt-Based Learning Model [0.7373617024876725]
臨床試験は医薬品の介入を促進するのに不可欠であるが、適格な参加者を選ぶ際にボトルネックに直面している。
構造化されていない医療用テキストの複雑な性質は、参加者を効率的に識別する上での課題である。
本研究では,コホート選択課題に対するプロンプトベース大規模言語モデルの性能評価を目的とした。
論文 参考訳(メタデータ) (2024-04-24T20:42:28Z) - Assertion Detection Large Language Model In-context Learning LoRA
Fine-tuning [2.401755243180179]
本稿では,大規模言語モデル(LLM)を多数の医療データに基づいて事前学習してアサーション検出を行う手法を提案する。
提案手法は従来の手法よりも0.31高い0.74のF-1を達成した。
論文 参考訳(メタデータ) (2024-01-31T05:11:00Z) - Zero-Shot Medical Information Retrieval via Knowledge Graph Embedding [27.14794371879541]
本稿では、ゼロショット医療情報検索(MIR)の新しいアプローチであるMedFusionRankを紹介する。
提案手法は、学習済みのBERTスタイルのモデルを用いて、コンパクトだが情報的なキーワードを抽出する。
これらのキーワードは、医療知識グラフ内の概念エンティティにリンクすることで、ドメイン知識に富む。
論文 参考訳(メタデータ) (2023-10-31T16:26:33Z) - Knowledge-injected Prompt Learning for Chinese Biomedical Entity
Normalization [6.927883826415262]
本稿では,バイオメディカルエンティティ正規化(BEN)課題に取り組むために,知識注入型プロンプト学習(PL-Knowledge)手法を提案する。
具体的には、候補エンティティマッチング、知識抽出、知識符号化、知識注入、予測出力の5段階からなる。
医療機関に含まれる知識項目を効果的に符号化することにより、追加の知識は、医療機関間の潜伏関係を捕捉するモデルの能力を高める。
論文 参考訳(メタデータ) (2023-08-23T09:32:40Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。