論文の概要: Information Extraction from Clinical Notes: Are We Ready to Switch to Large Language Models?
- arxiv url: http://arxiv.org/abs/2411.10020v1
- Date: Fri, 15 Nov 2024 07:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:33.212338
- Title: Information Extraction from Clinical Notes: Are We Ready to Switch to Large Language Models?
- Title(参考訳): 臨床ノートからの情報抽出:我々は大規模言語モデルに切り替える準備はできているか?
- Authors: Yan Hu, Xu Zuo, Yujia Zhou, Xueqing Peng, Jimin Huang, Vipina K. Keloth, Vincent J. Zhang, Ruey-Ling Weng, Qingyu Chen, Xiaoqian Jiang, Kirk E. Roberts, Hua Xu,
- Abstract要約: 大規模言語モデル(LLM)は生成タスクに優れるが、抽出タスクのパフォーマンスについては議論が続いている。
本研究は,オープンソースLLMを用いた包括的臨床用IEシステムの開発と評価を行った最初の試みである。
- 参考スコア(独自算出の注目度): 16.312594953592665
- License:
- Abstract: Backgrounds: Information extraction (IE) is critical in clinical natural language processing (NLP). While large language models (LLMs) excel on generative tasks, their performance on extractive tasks remains debated. Methods: We investigated Named Entity Recognition (NER) and Relation Extraction (RE) using 1,588 clinical notes from four sources (UT Physicians, MTSamples, MIMIC-III, and i2b2). We developed an annotated corpus covering 4 clinical entities and 16 modifiers, and compared instruction-tuned LLaMA-2 and LLaMA-3 against BiomedBERT in terms of performance, generalizability, computational resources, and throughput to BiomedBERT. Results: LLaMA models outperformed BiomedBERT across datasets. With sufficient training data, LLaMA showed modest improvements (1% on NER, 1.5-3.7% on RE); improvements were larger with limited training data. On unseen i2b2 data, LLaMA-3-70B outperformed BiomedBERT by 7% (F1) on NER and 4% on RE. However, LLaMA models required more computing resources and ran up to 28 times slower. We implemented "Kiwi," a clinical IE package featuring both models, available at https://kiwi.clinicalnlp.org/. Conclusion: This study is among the first to develop and evaluate a comprehensive clinical IE system using open-source LLMs. Results indicate that LLaMA models outperform BiomedBERT for clinical NER and RE but with higher computational costs and lower throughputs. These findings highlight that choosing between LLMs and traditional deep learning methods for clinical IE applications should remain task-specific, taking into account both performance metrics and practical considerations such as available computing resources and the intended use case scenarios.
- Abstract(参考訳): 背景:情報抽出(IE)は臨床自然言語処理(NLP)において重要である。
大規模言語モデル(LLM)は生成タスクに優れるが、抽出タスクのパフォーマンスについては議論が続いている。
方法:4つの情報源(UTphysicians, MTSamples, MIMIC-III, i2b2)から得られた1,588個の臨床記録を用いて,NERとREについて検討した。
我々は,4つの臨床組織と16の修飾体を含む注釈付きコーパスを開発し,BiomedBERTとLLaMA-2とLLaMA-3を比較した。
結果: LLaMAモデルはデータセット間でBiomedBERTを上回った。
十分なトレーニングデータでは、LLaMAは控えめな改善(NERは1%、REは1.5-3.7%)を示し、限られたトレーニングデータでは改善が大きかった。
i2b2データでは, LLaMA-3-70BはNERでは7%, REでは4%, BiomedBERTでは7%であった。
しかし、LLaMAモデルはより多くのコンピューティングリソースを必要とし、最大28倍の速度で動作した。
両モデルを含む臨床用IEパッケージである"Kiwi"を、https://kiwi.clinicalnlp.org/.comで公開しました。
結論: 本研究は, オープンソースLLMを用いた総合的な臨床用IEシステムの開発と評価を初めて行ったものである。
LLaMAモデルは臨床用NERとREでBiomedBERTより優れているが,計算コストは高く,スループットも低い。
これらの結果から,臨床用IEアプリケーションにおけるLCMと従来のディープラーニング手法のどちらを選択するかは,パフォーマンス指標と,利用可能なコンピューティングリソースや想定されたユースケースシナリオといった実践的考察の両方を考慮して,タスク特化されなければならないことが示唆された。
関連論文リスト
- Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文 参考訳(メタデータ) (2024-08-15T03:56:40Z) - Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。
本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-26T03:56:21Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note Generation with On-Policy Reinforcement Learning [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。
教師モデルとしてGemini 1.0 Proを用いて、政治強化学習を行うための新しいアプローチであるDistillDirectを導入する。
我々のモデルであるLLaMA-Clinicは、医師が作成したものと同等の品質の臨床メモを生成することができる。
論文 参考訳(メタデータ) (2024-04-25T15:34:53Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Benchmarking and Analyzing In-context Learning, Fine-tuning and
Supervised Learning for Biomedical Knowledge Curation: a focused study on
chemical entities of biological interest [2.8216292452982668]
本研究は、インコンテキスト学習(ICL)、ファインチューニング(FT)、教師あり学習(ChML)の3つのNLPパラダイムを比較し、分析する。
ICLでは、GPT-4、GPT-3.5、BioGPTの3つのプロンプト戦略が採用された。
MLでは、ランダムフォレストとLong-Short Term Memoryモデルのトレーニングに6つの埋め込みモデルが使用された。
論文 参考訳(メタデータ) (2023-12-20T12:46:44Z) - BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing [10.698756010878688]
25,005の命令から大規模言語モデル(LLM)を作成する。
命令は、80人のキュレートされた命令からランダムに3列のサンプルを引いたGPT-4言語モデルによって作成される。
いくつかのBioNLPタスクにおいて、これらの命令調整LDMを評価し、質問応答(QA)、情報抽出(IE)、テキスト生成(GEN)の3つの主要なカテゴリに分類できる。
論文 参考訳(メタデータ) (2023-10-30T19:38:50Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。