論文の概要: Information Extraction from Clinical Notes: Are We Ready to Switch to Large Language Models?
- arxiv url: http://arxiv.org/abs/2411.10020v1
- Date: Fri, 15 Nov 2024 07:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:33.212338
- Title: Information Extraction from Clinical Notes: Are We Ready to Switch to Large Language Models?
- Title(参考訳): 臨床ノートからの情報抽出:我々は大規模言語モデルに切り替える準備はできているか?
- Authors: Yan Hu, Xu Zuo, Yujia Zhou, Xueqing Peng, Jimin Huang, Vipina K. Keloth, Vincent J. Zhang, Ruey-Ling Weng, Qingyu Chen, Xiaoqian Jiang, Kirk E. Roberts, Hua Xu,
- Abstract要約: 大規模言語モデル(LLM)は生成タスクに優れるが、抽出タスクのパフォーマンスについては議論が続いている。
本研究は,オープンソースLLMを用いた包括的臨床用IEシステムの開発と評価を行った最初の試みである。
- 参考スコア(独自算出の注目度): 16.312594953592665
- License:
- Abstract: Backgrounds: Information extraction (IE) is critical in clinical natural language processing (NLP). While large language models (LLMs) excel on generative tasks, their performance on extractive tasks remains debated. Methods: We investigated Named Entity Recognition (NER) and Relation Extraction (RE) using 1,588 clinical notes from four sources (UT Physicians, MTSamples, MIMIC-III, and i2b2). We developed an annotated corpus covering 4 clinical entities and 16 modifiers, and compared instruction-tuned LLaMA-2 and LLaMA-3 against BiomedBERT in terms of performance, generalizability, computational resources, and throughput to BiomedBERT. Results: LLaMA models outperformed BiomedBERT across datasets. With sufficient training data, LLaMA showed modest improvements (1% on NER, 1.5-3.7% on RE); improvements were larger with limited training data. On unseen i2b2 data, LLaMA-3-70B outperformed BiomedBERT by 7% (F1) on NER and 4% on RE. However, LLaMA models required more computing resources and ran up to 28 times slower. We implemented "Kiwi," a clinical IE package featuring both models, available at https://kiwi.clinicalnlp.org/. Conclusion: This study is among the first to develop and evaluate a comprehensive clinical IE system using open-source LLMs. Results indicate that LLaMA models outperform BiomedBERT for clinical NER and RE but with higher computational costs and lower throughputs. These findings highlight that choosing between LLMs and traditional deep learning methods for clinical IE applications should remain task-specific, taking into account both performance metrics and practical considerations such as available computing resources and the intended use case scenarios.
- Abstract(参考訳): 背景:情報抽出(IE)は臨床自然言語処理(NLP)において重要である。
大規模言語モデル(LLM)は生成タスクに優れるが、抽出タスクのパフォーマンスについては議論が続いている。
方法:4つの情報源(UTphysicians, MTSamples, MIMIC-III, i2b2)から得られた1,588個の臨床記録を用いて,NERとREについて検討した。
我々は,4つの臨床組織と16の修飾体を含む注釈付きコーパスを開発し,BiomedBERTとLLaMA-2とLLaMA-3を比較した。
結果: LLaMAモデルはデータセット間でBiomedBERTを上回った。
十分なトレーニングデータでは、LLaMAは控えめな改善(NERは1%、REは1.5-3.7%)を示し、限られたトレーニングデータでは改善が大きかった。
i2b2データでは, LLaMA-3-70BはNERでは7%, REでは4%, BiomedBERTでは7%であった。
しかし、LLaMAモデルはより多くのコンピューティングリソースを必要とし、最大28倍の速度で動作した。
両モデルを含む臨床用IEパッケージである"Kiwi"を、https://kiwi.clinicalnlp.org/.comで公開しました。
結論: 本研究は, オープンソースLLMを用いた総合的な臨床用IEシステムの開発と評価を初めて行ったものである。
LLaMAモデルは臨床用NERとREでBiomedBERTより優れているが,計算コストは高く,スループットも低い。
これらの結果から,臨床用IEアプリケーションにおけるLCMと従来のディープラーニング手法のどちらを選択するかは,パフォーマンス指標と,利用可能なコンピューティングリソースや想定されたユースケースシナリオといった実践的考察の両方を考慮して,タスク特化されなければならないことが示唆された。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Leveraging Large Language Models for Medical Information Extraction and Query Generation [2.1793134762413433]
本稿では,大言語モデル(LLM)を臨床試験検索プロセスに統合するシステムを提案する。
クエリ生成には6つのLCMを評価し,最小限の計算資源を必要とする,オープンソースと比較的小さなモデルに着目した。
論文 参考訳(メタデータ) (2024-10-31T12:01:51Z) - When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文 参考訳(メタデータ) (2024-08-15T03:56:40Z) - Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。
本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-26T03:56:21Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Benchmarking and Analyzing In-context Learning, Fine-tuning and
Supervised Learning for Biomedical Knowledge Curation: a focused study on
chemical entities of biological interest [2.8216292452982668]
本研究は、インコンテキスト学習(ICL)、ファインチューニング(FT)、教師あり学習(ChML)の3つのNLPパラダイムを比較し、分析する。
ICLでは、GPT-4、GPT-3.5、BioGPTの3つのプロンプト戦略が採用された。
MLでは、ランダムフォレストとLong-Short Term Memoryモデルのトレーニングに6つの埋め込みモデルが使用された。
論文 参考訳(メタデータ) (2023-12-20T12:46:44Z) - BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing [10.698756010878688]
25,005の命令から大規模言語モデル(LLM)を作成する。
命令は、80人のキュレートされた命令からランダムに3列のサンプルを引いたGPT-4言語モデルによって作成される。
いくつかのBioNLPタスクにおいて、これらの命令調整LDMを評価し、質問応答(QA)、情報抽出(IE)、テキスト生成(GEN)の3つの主要なカテゴリに分類できる。
論文 参考訳(メタデータ) (2023-10-30T19:38:50Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。