論文の概要: Zero-shot Clinical Entity Recognition using ChatGPT
- arxiv url: http://arxiv.org/abs/2303.16416v2
- Date: Mon, 15 May 2023 18:17:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 18:41:29.536282
- Title: Zero-shot Clinical Entity Recognition using ChatGPT
- Title(参考訳): ChatGPTを用いたゼロショット臨床エンティティ認識
- Authors: Yan Hu, Iqra Ameer, Xu Zuo, Xueqing Peng, Yujia Zhou, Zehan Li, Yiming
Li, Jianfu Li, Xiaoqian Jiang, Hua Xu
- Abstract要約: ChatGPTは、OpenAIによって2010 i2b2チャレンジで定義された名前付きエンティティ認識タスクのために開発された大きな言語モデルである。
同様のゼロショット設定でGPT-3と比較し,MTSamplesの合成臨床ノートを用いて微調整したBioClinicalBERTモデルと比較した。
- 参考スコア(独自算出の注目度): 21.260003035901185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we investigated the potential of ChatGPT, a large language
model developed by OpenAI, for the clinical named entity recognition task
defined in the 2010 i2b2 challenge, in a zero-shot setting with two different
prompt strategies. We compared its performance with GPT-3 in a similar
zero-shot setting, as well as a fine-tuned BioClinicalBERT model using a set of
synthetic clinical notes from MTSamples. Our findings revealed that ChatGPT
outperformed GPT-3 in the zero-shot setting, with F1 scores of 0.418 (vs.0.250)
and 0.620 (vs. 0.480) for exact- and relaxed-matching, respectively. Moreover,
prompts affected ChatGPT's performance greatly, with relaxed-matching F1 scores
of 0.628 vs.0.541 for two different prompt strategies. Although ChatGPT's
performance was still lower than that of the supervised BioClinicalBERT model
(i.e., relaxed-matching F1 scores of 0.620 vs. 0.888), our study demonstrates
the great potential of ChatGPT for clinical NER tasks in a zero-shot setting,
which is much more appealing as it does not require any annotation.
- Abstract(参考訳): 本研究では,2010 年の i2b2 チャレンジで定義された臨床名称のエンティティ認識タスクに対して,OpenAI が開発した大規模言語モデル ChatGPT を,2 つの異なるプロンプト戦略を持つゼロショット設定で検討した。
同様のゼロショット設定でGPT-3と比較し,MTSamplesの合成臨床ノートを用いて微調整したBioClinicalBERTモデルと比較した。
その結果,chatgpt はゼロショット設定で gpt-3 を上回り,f1 スコアは 0.418 (vs.0.250) と 0.620 (vs. 0.480) で一致した。
さらにプロンプトはChatGPTの性能に大きな影響を与え、2つの異なるプロンプト戦略に対して0.628対0.541の緩和マッチングF1スコアが与えられた。
ChatGPTの性能は、教師付きBioClinicalBERTモデル(つまり、ゆるやかなマッチングF1スコア0.620 vs. 0.888)よりも依然として低かったが、本研究では、ゼロショット設定で臨床NERタスクに対するChatGPTの大きな可能性を示した。
関連論文リスト
- Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - CTBench: A Comprehensive Benchmark for Evaluating Language Model Capabilities in Clinical Trial Design [15.2100541345819]
CTBenchは、臨床研究設計を支援するために言語モデル(LM)を評価するベンチマークとして導入された。
このデータセットは、2つのデータセットで構成されている: "CT-Repo" は、臨床試験.govから得られた1,690の臨床試験のベースライン特徴を含み、"CT-Pub"は、関連する出版物から集められたより包括的なベースライン特徴を持つ100の試験のサブセットである。
論文 参考訳(メタデータ) (2024-06-25T18:52:48Z) - Towards Efficient Patient Recruitment for Clinical Trials: Application of a Prompt-Based Learning Model [0.7373617024876725]
臨床試験は医薬品の介入を促進するのに不可欠であるが、適格な参加者を選ぶ際にボトルネックに直面している。
構造化されていない医療用テキストの複雑な性質は、参加者を効率的に識別する上での課題である。
本研究では,コホート選択課題に対するプロンプトベース大規模言語モデルの性能評価を目的とした。
論文 参考訳(メタデータ) (2024-04-24T20:42:28Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - Leveraging deep active learning to identify low-resource mobility
functioning information in public clinical notes [0.157286095422595]
国際機能・障害・健康分類(ICF)のモビリティ領域に関する最初の公開アノテートデータセット
我々はNational NLP Clinical Challenges (n2c2) 研究データセットを用いてキーワード拡張を用いた候補文のプールを構築する。
最終的なデータセットは,5,511のアクションエンティティ,5,328のモビリティエンティティ,306のアシストエンティティ,639の量子化エンティティを含む,合計11,784のエンティティからなる4,265の文で構成されています。
論文 参考訳(メタデータ) (2023-11-27T15:53:11Z) - An evaluation of GPT models for phenotype concept recognition [0.4715973318447338]
臨床表現型および表現型アノテーションのためのGPT(Generative Pre-trained Transformer)モデルの性能について検討した。
その結果、適切な設定で、これらのモデルが芸術的パフォーマンスの状態を達成できることが示されている。
論文 参考訳(メタデータ) (2023-09-29T12:06:55Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - AutoTrial: Prompting Language Models for Clinical Trial Design [53.630479619856516]
本稿では,言語モデルを用いた臨床検査基準の設計を支援するAutoTrialという手法を提案する。
70K以上の臨床試験で、AutoTrialが高品質な基準テキストを生成することが確認された。
論文 参考訳(メタデータ) (2023-05-19T01:04:16Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Systematic Clinical Evaluation of A Deep Learning Method for Medical
Image Segmentation: Radiosurgery Application [48.89674088331313]
3次元医用画像分割作業において,Deep Learning (DL) 手法を体系的に評価した。
本手法は放射線外科治療プロセスに統合され,臨床ワークフローに直接影響を及ぼす。
論文 参考訳(メタデータ) (2021-08-21T16:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。