論文の概要: Beyond the Basics: Leveraging Large Language Model for Fine-Grained Medical Entity Recognition
- arxiv url: http://arxiv.org/abs/2604.17214v1
- Date: Sun, 19 Apr 2026 02:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.395988
- Title: Beyond the Basics: Leveraging Large Language Model for Fine-Grained Medical Entity Recognition
- Title(参考訳): 基礎を超えて:細粒化医療エンティティ認識のための大規模言語モデルを活用する
- Authors: Nwe Ni Win, Jim Basilakis, Steven Thomas, Seyhan Yazar, Laura Pierce, Stephanie Liu, Paul M. Middleton, Nasser Ghadiri, X. Rosalind Wang,
- Abstract要約: 詳細な医療機関認識のためのオープンソースのLLaMA3モデルを厳格に評価した。
ゼロショット、少数ショット、ローランド適応(LoRA)による微調整という3つの学習パラダイムを採用しました。
以上の結果から, 微調整のLLaMA3は, それぞれ63.11%, 35.63%のゼロショット, 少数ショットのアプローチを上回った。
- 参考スコア(独自算出の注目度): 0.12189422792863447
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extracting clinically relevant information from unstructured medical narratives such as admission notes, discharge summaries, and emergency case histories remains a challenge in clinical natural language processing (NLP). Medical Entity Recognition (MER) identifies meaningful concepts embedded in these records. Recent advancements in large language models (LLMs) have shown competitive MER performance; however, evaluations often focus on general entity types, offering limited utility for real-world clinical needs requiring finer-grained extraction. To address this gap, we rigorously evaluated the open-source LLaMA3 model for fine-grained medical entity recognition across 18 clinically detailed categories. To optimize performance, we employed three learning paradigms: zero-shot, few-shot, and fine-tuning with Low-Rank Adaptation (LoRA). To further enhance few-shot learning, we introduced two example selection methods based on token- and sentence-level embedding similarity, utilizing a pre-trained BioBERT model. Unlike prior work assessing zero-shot and few-shot performance on proprietary models (e.g., GPT-4) or fine-tuning different architectures, we ensured methodological consistency by applying all strategies to a unified LLaMA3 backbone, enabling fair comparison across learning settings. Our results showed that fine-tuned LLaMA3 surpasses zero-shot and few-shot approaches by 63.11% and 35.63%, respectivel respectively, achieving an F1 score of 81.24% in granular medical entity extraction.
- Abstract(参考訳): 臨床自然言語処理 (NLP) では, 入院記, 退院記, 緊急症例歴などの非構造化医療談話から臨床関連情報を抽出することが課題である。
医療エンティティ認識(MER)は、これらのレコードに埋め込まれた意味ある概念を識別する。
大規模言語モデル(LLM)の最近の進歩は、競争力のあるMER性能を示しているが、評価はしばしば一般的なエンティティタイプに焦点をあて、よりきめ細かな抽出を必要とする実世界の臨床ニーズに限定的なユーティリティを提供する。
このギャップに対処するため,18の臨床的詳細カテゴリにまたがる詳細な医療組織認識のためのオープンソースのLLaMA3モデルを厳格に評価した。
性能を最適化するために、ゼロショット、少数ショット、ローランド適応(LoRA)による微調整という3つの学習パラダイムを採用しました。
そこで我々は,事前学習したBioBERTモデルを用いて,トークンと文レベルの埋め込み類似性に基づく2つのサンプル選択手法を提案する。
プロプライエタリなモデル(例えば、GPT-4)や微調整の異なるアーキテクチャでゼロショットと少数ショットのパフォーマンスを評価する以前の作業とは異なり、すべての戦略をLLaMA3バックボーンに適用することにより、学習設定間の公正な比較を可能にすることによって、方法論的な一貫性を確保する。
以上の結果から, 微調整LLaMA3は, それぞれ63.11%, 35.63%のゼロショット, 少数ショットのアプローチを上回り, F1スコアが81.24%のグラニュラルメディカルエンティティ抽出に成功した。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - Evaluating Open-Weight Large Language Models for Structured Data Extraction from Narrative Medical Reports Across Multiple Use Cases and Languages [2.3429123017483016]
大規模言語モデル (LLMs) は、自由テキスト臨床記録から構造化された情報を抽出するためにますます使われている。
当科では6症例に15例のオープンウェイトLSMを報告した。
論文 参考訳(メタデータ) (2025-11-03T12:32:01Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。
全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文 参考訳(メタデータ) (2025-03-19T12:51:52Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。
本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-26T03:56:21Z) - Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。
我々のプロセスには、AIと人間のフィードバックの両方から、継続的な事前トレーニング、教師付き微調整、強化学習が組み込まれています。
得られたLLaMA-Clinicは,医師が作成したものと同等の精度で臨床記録を作成できる。
論文 参考訳(メタデータ) (2024-04-25T15:34:53Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。