論文の概要: Zero-shot Clinical Entity Recognition using ChatGPT
- arxiv url: http://arxiv.org/abs/2303.16416v1
- Date: Wed, 29 Mar 2023 02:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 16:14:03.149339
- Title: Zero-shot Clinical Entity Recognition using ChatGPT
- Title(参考訳): ChatGPTを用いたゼロショット臨床エンティティ認識
- Authors: Yan Hu, Iqra Ameer, Xu Zuo, Xueqing Peng, Yujia Zhou, Zehan Li, Yiming
Li, Jianfu Li, Xiaoqian Jiang, Hua Xu
- Abstract要約: ChatGPTは、OpenAIによって2010 i2b2チャレンジで定義された名前付きエンティティ認識タスクのために開発された大きな言語モデルである。
同様のゼロショット設定でGPT-3と比較し,MTSamplesの合成臨床ノートを用いて微調整したBioClinicalBERTモデルと比較した。
- 参考スコア(独自算出の注目度): 21.260003035901185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we investigated the potential of ChatGPT, a large language
model developed by OpenAI, for the clinical named entity recognition task
defined in the 2010 i2b2 challenge, in a zero-shot setting with two different
prompt strategies. We compared its performance with GPT-3 in a similar
zero-shot setting, as well as a fine-tuned BioClinicalBERT model using a set of
synthetic clinical notes from MTSamples. Our findings revealed that ChatGPT
outperformed GPT-3 in the zero-shot setting, with F1 scores of 0.418 (vs.0.250)
and 0.620 (vs. 0.480) for exact- and relaxed-matching, respectively. Moreover,
prompts affected ChatGPT's performance greatly, with relaxed-matching F1 scores
of 0.628 vs.0.541 for two different prompt strategies. Although ChatGPT's
performance was still lower than that of the supervised BioClinicalBERT model
(i.e., relaxed-matching F1 scores of 0.628 vs. 0.870), our study demonstrates
the great potential of ChatGPT for clinical NER tasks in a zero-shot setting,
which is much more appealing as it does not require any annotation.
- Abstract(参考訳): 本研究では,2010 年の i2b2 チャレンジで定義された臨床名称のエンティティ認識タスクに対して,OpenAI が開発した大規模言語モデル ChatGPT を,2 つの異なるプロンプト戦略を持つゼロショット設定で検討した。
同様のゼロショット設定でGPT-3と比較し,MTSamplesの合成臨床ノートを用いて微調整したBioClinicalBERTモデルと比較した。
その結果,chatgpt はゼロショット設定で gpt-3 を上回り,f1 スコアは 0.418 (vs.0.250) と 0.620 (vs. 0.480) で一致した。
さらにプロンプトはChatGPTの性能に大きな影響を与え、2つの異なるプロンプト戦略に対して0.628対0.541の緩和マッチングF1スコアが与えられた。
ChatGPTの性能は、教師付きBioClinicalBERTモデル(つまり、ゆるやかなマッチングF1スコア0.628 vs. 0.870)よりも依然として低かったが、本研究では、ゼロショット設定で臨床NERタスクに対するChatGPTの大きな可能性を示した。
関連論文リスト
- Process-Supervised Reward Models for Verifying Clinical Note Generation: A Scalable Approach Guided by Domain Expertise [19.71388941192149]
大規模言語モデル(LLM)が生み出す臨床ノートに段階的な報酬信号を提供するために、PRMを訓練する。
提案手法は,LLaMA-3.18Bインストラクタモデルを用いて学習し,ジェミニプロ1.5とバニラ結果監督報酬モデル(ORM)を2つの重要な評価で比較した。
論文 参考訳(メタデータ) (2024-12-17T06:24:34Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation [42.06416052431378]
2Dラジオグラフィーキャプションは、ボリューム3D解剖学における現実の診断課題を反映するものではない。
我々は18,885組の3D-BrainCTデータセットを収集し,臨床ビジュアルインストラクション・チューニングを用いて,脳波モデルを用いて放射線治療を施した3D脳CTレポートを作成した。
私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
論文 参考訳(メタデータ) (2024-07-02T12:58:35Z) - CTBench: A Comprehensive Benchmark for Evaluating Language Model Capabilities in Clinical Trial Design [15.2100541345819]
CTBenchは、臨床研究設計を支援するために言語モデル(LM)を評価するベンチマークとして導入された。
このデータセットは、2つのデータセットで構成されている: "CT-Repo" は、臨床試験.govから得られた1,690の臨床試験のベースライン特徴を含み、"CT-Pub"は、関連する出版物から集められたより包括的なベースライン特徴を持つ100の試験のサブセットである。
論文 参考訳(メタデータ) (2024-06-25T18:52:48Z) - Towards Efficient Patient Recruitment for Clinical Trials: Application of a Prompt-Based Learning Model [0.7373617024876725]
臨床試験は医薬品の介入を促進するのに不可欠であるが、適格な参加者を選ぶ際にボトルネックに直面している。
構造化されていない医療用テキストの複雑な性質は、参加者を効率的に識別する上での課題である。
本研究では,コホート選択課題に対するプロンプトベース大規模言語モデルの性能評価を目的とした。
論文 参考訳(メタデータ) (2024-04-24T20:42:28Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - An evaluation of GPT models for phenotype concept recognition [0.4715973318447338]
臨床表現型および表現型アノテーションのためのGPT(Generative Pre-trained Transformer)モデルの性能について検討した。
その結果、適切な設定で、これらのモデルが芸術的パフォーマンスの状態を達成できることが示されている。
論文 参考訳(メタデータ) (2023-09-29T12:06:55Z) - AutoTrial: Prompting Language Models for Clinical Trial Design [53.630479619856516]
本稿では,言語モデルを用いた臨床検査基準の設計を支援するAutoTrialという手法を提案する。
70K以上の臨床試験で、AutoTrialが高品質な基準テキストを生成することが確認された。
論文 参考訳(メタデータ) (2023-05-19T01:04:16Z) - Systematic Clinical Evaluation of A Deep Learning Method for Medical
Image Segmentation: Radiosurgery Application [48.89674088331313]
3次元医用画像分割作業において,Deep Learning (DL) 手法を体系的に評価した。
本手法は放射線外科治療プロセスに統合され,臨床ワークフローに直接影響を及ぼす。
論文 参考訳(メタデータ) (2021-08-21T16:15:40Z) - Predicting Clinical Trial Results by Implicit Evidence Integration [40.80948875051806]
新規な臨床試験結果予測(CTRP)タスクを導入する。
CTRPフレームワークでは、モデルがPICO形式の臨床試験の提案を受け、その背景を入力として、その結果を予測する。
PICOを暗黙的に含む医学文献から大規模非構造化文を引用し,その結果を証拠とした。
論文 参考訳(メタデータ) (2020-10-12T12:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。