論文の概要: Improving Large Language Models for Clinical Named Entity Recognition
via Prompt Engineering
- arxiv url: http://arxiv.org/abs/2303.16416v3
- Date: Thu, 25 Jan 2024 04:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 18:36:46.704959
- Title: Improving Large Language Models for Clinical Named Entity Recognition
via Prompt Engineering
- Title(参考訳): プロンプト工学による臨床名前付きエンティティ認識のための大規模言語モデルの改良
- Authors: Yan Hu, Qingyu Chen, Jingcheng Du, Xueqing Peng, Vipina Kuttichi
Keloth, Xu Zuo, Yujia Zhou, Zehan Li, Xiaoqian Jiang, Zhiyong Lu, Kirk
Roberts, Hua Xu
- Abstract要約: 本研究は,臨床名付きエンティティ認識(NER)タスクにおける GPT-3.5 と GPT-4 の能力を定量化する。
我々は,ベースラインプロンプト,アノテーションガイドラインに基づくプロンプト,エラー解析に基づく命令,アノテーション付きサンプルを含むタスク固有のプロンプトフレームワークを開発した。
それぞれのプロンプトの有効性を評価し,BioClinicalBERTと比較した。
- 参考スコア(独自算出の注目度): 20.534197056683695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: This study quantifies the capabilities of GPT-3.5 and GPT-4 for
clinical named entity recognition (NER) tasks and proposes task-specific
prompts to improve their performance. Materials and Methods: We evaluated these
models on two clinical NER tasks: (1) to extract medical problems, treatments,
and tests from clinical notes in the MTSamples corpus, following the 2010 i2b2
concept extraction shared task, and (2) identifying nervous system
disorder-related adverse events from safety reports in the vaccine adverse
event reporting system (VAERS). To improve the GPT models' performance, we
developed a clinical task-specific prompt framework that includes (1) baseline
prompts with task description and format specification, (2) annotation
guideline-based prompts, (3) error analysis-based instructions, and (4)
annotated samples for few-shot learning. We assessed each prompt's
effectiveness and compared the models to BioClinicalBERT. Results: Using
baseline prompts, GPT-3.5 and GPT-4 achieved relaxed F1 scores of 0.634, 0.804
for MTSamples, and 0.301, 0.593 for VAERS. Additional prompt components
consistently improved model performance. When all four components were used,
GPT-3.5 and GPT-4 achieved relaxed F1 socres of 0.794, 0.861 for MTSamples and
0.676, 0.736 for VAERS, demonstrating the effectiveness of our prompt
framework. Although these results trail BioClinicalBERT (F1 of 0.901 for the
MTSamples dataset and 0.802 for the VAERS), it is very promising considering
few training samples are needed. Conclusion: While direct application of GPT
models to clinical NER tasks falls short of optimal performance, our
task-specific prompt framework, incorporating medical knowledge and training
samples, significantly enhances GPT models' feasibility for potential clinical
applications.
- Abstract(参考訳): 目的: 本研究は, 臨床名付きエンティティ認識(NER)タスクにおけるGPT-3.5とGPT-4の能力を定量化し, タスク固有のプロンプトを提案する。
対象と方法:2010年のi2b2概念抽出共有タスクの後,MTSamples corpus の臨床ノートから医学的問題,治療,検査を抽出すること,およびワクチン副作用報告システム(VAERS)の安全性報告から神経系障害関連有害事象を同定すること,の2つのNERタスクを用いてこれらのモデルを評価した。
gptモデルの性能を向上させるために,(1)タスク記述とフォーマット仕様のベースラインプロンプト,(2)アノテーションガイドラインに基づくプロンプト,(3)エラー解析に基づく命令,(4)少数ショット学習のための注釈付きサンプルを含む臨床タスク固有プロンプトフレームワークを開発した。
それぞれのプロンプトの有効性を評価し,BioClinicalBERTと比較した。
結果: GPT-3.5, GPT-4は, MTSamplesでは0.804, VAERSでは0.301,0.593の緩和F1スコアを得た。
追加のプロンプトコンポーネントはモデルパフォーマンスを継続的に改善した。
4成分すべてを使用した場合, GPT-3.5およびGPT-4は, MTSamplesの0.794, 0.861, VAERSの0.676, 0.736の緩和F1ソクリを達成し,本フレームワークの有効性を示した。
これらの結果は、bioclinicalbert(mtsamplesデータセットでは0.901のf1、vaersでは0.802)を辿っているが、トレーニングサンプルは少ないので、非常に有望である。
結論: 臨床NERタスクへのGPTモデルの直接適用は最適性能に欠けるが, 医療知識とトレーニングサンプルを取り入れたタスク特異的プロンプトフレームワークは, GPTモデルの臨床応用の可能性を大幅に向上させる。
関連論文リスト
- CTBench: A Comprehensive Benchmark for Evaluating Language Model Capabilities in Clinical Trial Design [15.2100541345819]
CTBenchは、臨床研究設計を支援するために言語モデル(LM)を評価するベンチマークとして導入された。
このデータセットは、2つのデータセットで構成されている: "CT-Repo" は、臨床試験.govから得られた1,690の臨床試験のベースライン特徴を含み、"CT-Pub"は、関連する出版物から集められたより包括的なベースライン特徴を持つ100の試験のサブセットである。
論文 参考訳(メタデータ) (2024-06-25T18:52:48Z) - Towards Efficient Patient Recruitment for Clinical Trials: Application of a Prompt-Based Learning Model [0.7373617024876725]
臨床試験は医薬品の介入を促進するのに不可欠であるが、適格な参加者を選ぶ際にボトルネックに直面している。
構造化されていない医療用テキストの複雑な性質は、参加者を効率的に識別する上での課題である。
本研究では,コホート選択課題に対するプロンプトベース大規模言語モデルの性能評価を目的とした。
論文 参考訳(メタデータ) (2024-04-24T20:42:28Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - Leveraging deep active learning to identify low-resource mobility
functioning information in public clinical notes [0.157286095422595]
国際機能・障害・健康分類(ICF)のモビリティ領域に関する最初の公開アノテートデータセット
我々はNational NLP Clinical Challenges (n2c2) 研究データセットを用いてキーワード拡張を用いた候補文のプールを構築する。
最終的なデータセットは,5,511のアクションエンティティ,5,328のモビリティエンティティ,306のアシストエンティティ,639の量子化エンティティを含む,合計11,784のエンティティからなる4,265の文で構成されています。
論文 参考訳(メタデータ) (2023-11-27T15:53:11Z) - An evaluation of GPT models for phenotype concept recognition [0.4715973318447338]
臨床表現型および表現型アノテーションのためのGPT(Generative Pre-trained Transformer)モデルの性能について検討した。
その結果、適切な設定で、これらのモデルが芸術的パフォーマンスの状態を達成できることが示されている。
論文 参考訳(メタデータ) (2023-09-29T12:06:55Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - AutoTrial: Prompting Language Models for Clinical Trial Design [53.630479619856516]
本稿では,言語モデルを用いた臨床検査基準の設計を支援するAutoTrialという手法を提案する。
70K以上の臨床試験で、AutoTrialが高品質な基準テキストを生成することが確認された。
論文 参考訳(メタデータ) (2023-05-19T01:04:16Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - A Meta-GNN approach to personalized seizure detection and classification [53.906130332172324]
本稿では,特定の患者に限られた発作サンプルから迅速に適応できるパーソナライズされた発作検出・分類フレームワークを提案する。
トレーニング患者の集合からグローバルモデルを学ぶメタGNNベースの分類器を訓練する。
本手法は, 未確認患者20回に限って, 精度82.7%, F1スコア82.08%を達成し, ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-11-01T14:12:58Z) - Systematic Clinical Evaluation of A Deep Learning Method for Medical
Image Segmentation: Radiosurgery Application [48.89674088331313]
3次元医用画像分割作業において,Deep Learning (DL) 手法を体系的に評価した。
本手法は放射線外科治療プロセスに統合され,臨床ワークフローに直接影響を及ぼす。
論文 参考訳(メタデータ) (2021-08-21T16:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。