論文の概要: Retrieval augmented generation based dynamic prompting for few-shot biomedical named entity recognition using large language models
- arxiv url: http://arxiv.org/abs/2508.06504v1
- Date: Fri, 25 Jul 2025 20:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.139399
- Title: Retrieval augmented generation based dynamic prompting for few-shot biomedical named entity recognition using large language models
- Title(参考訳): 大規模言語モデルを用いたバイオメディカル名称認識のための検索拡張に基づく動的プロンプト
- Authors: Yao Ge, Sudeshna Das, Yuting Guo, Abeed Sarker,
- Abstract要約: 生物医学的名前付きエンティティ認識(NER)における大規模言語モデル(LLM)の性能課題について検討する。
提案手法では,入力テキストと類似性に基づいてアノテーション付きテキスト内学習例を選択し,推論中に各インスタンスに対してプロンプトを動的に更新する。
静的および動的プロンプトエンジニアリング技術を実装・最適化し、5つのバイオメディカルNERデータセットで評価した。
- 参考スコア(独自算出の注目度): 4.848166051841711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical named entity recognition (NER) is a high-utility natural language processing (NLP) task, and large language models (LLMs) show promise particularly in few-shot settings (i.e., limited training data). In this article, we address the performance challenges of LLMs for few-shot biomedical NER by investigating a dynamic prompting strategy involving retrieval-augmented generation (RAG). In our approach, the annotated in-context learning examples are selected based on their similarities with the input texts, and the prompt is dynamically updated for each instance during inference. We implemented and optimized static and dynamic prompt engineering techniques and evaluated them on five biomedical NER datasets. Static prompting with structured components increased average F1-scores by 12% for GPT-4, and 11% for GPT-3.5 and LLaMA 3-70B, relative to basic static prompting. Dynamic prompting further improved performance, with TF-IDF and SBERT retrieval methods yielding the best results, improving average F1-scores by 7.3% and 5.6% in 5-shot and 10-shot settings, respectively. These findings highlight the utility of contextually adaptive prompts via RAG for biomedical NER.
- Abstract(参考訳): 生物医学的な名前付きエンティティ認識(NER)は、高ユーティリティ自然言語処理(NLP)タスクであり、大規模言語モデル(LLM)は特に少数の設定(訓練データに制限がある)において有望であることを示す。
本稿では, バイオメディカルNERにおけるLLMの性能課題について, 検索強化世代(RAG)を含む動的プロンプト戦略について検討する。
提案手法では,入力テキストと類似性に基づいて注釈付きテキスト内学習例を選択し,推論中に各インスタンスに対してプロンプトを動的に更新する。
静的および動的プロンプトエンジニアリング技術を実装・最適化し、5つのバイオメディカルNERデータセットで評価した。
構造成分による静的プロンプトは, GPT-4では平均F1スコアが12%増加し, GPT-3.5およびLLaMA 3-70Bでは11%上昇した。
TF-IDFとSBERTの検索手法は、それぞれ5ショットと10ショットで平均F1スコアを7.3%、平均F1スコアを5.6%改善した。
これらの知見は,生医学的NERにおけるRAGを介した文脈適応的プロンプトの有用性を浮き彫りにした。
関連論文リスト
- LLM-based Prompt Ensemble for Reliable Medical Entity Recognition from EHRs [4.262074310505135]
本稿では,大規模言語モデル(LLM)を用いた即時医療機関認識について検討する。
即発アンサンブルのGPT-4oはF1スコア0.95、リコール0.98で最高評価を達成した。
アンサンブル法は、埋め込みベースの類似性と多数決によって出力を集約することで信頼性を向上させた。
論文 参考訳(メタデータ) (2025-05-13T16:11:29Z) - MMRAG: Multi-Mode Retrieval-Augmented Generation with Large Language Models for Biomedical In-Context Learning [16.59236233944259]
本稿では,新しいMulti-mode Search-augmented Generation (MMRAG) フレームワークを提案する。
MMRAGはランダムモード、トップモード、多様性モード、クラスモードの4つの検索戦略を統合している。
本研究は3つの中核生物医学的NLP課題に対するMRAGの評価である。
論文 参考訳(メタデータ) (2025-02-21T21:36:48Z) - Augmenting Biomedical Named Entity Recognition with General-domain Resources [47.24727904076347]
ニューラルネットワークに基づくバイオメディカル名前付きエンティティ認識(BioNER)モデルのトレーニングは通常、広範囲でコストのかかる人的アノテーションを必要とする。
GERBERAは、一般ドメインのNERデータセットをトレーニングに利用した、単純なyet効率の手法である。
我々は,81,410インスタンスからなる8つのエンティティタイプの5つのデータセットに対して,GERBERAを体系的に評価した。
論文 参考訳(メタデータ) (2024-06-15T15:28:02Z) - BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine [19.861178160437827]
大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきた。
textscBiomedRAGは5つのバイオメディカルNLPタスクで優れたパフォーマンスを実現している。
textscBiomedRAG は、GIT と ChemProt コーパスにおいて、マイクロF1スコアが 81.42 と 88.83 の他のトリプル抽出システムより優れている。
論文 参考訳(メタデータ) (2024-05-01T12:01:39Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。