論文の概要: Distilling Large Language Models for Efficient Clinical Information Extraction
- arxiv url: http://arxiv.org/abs/2501.00031v1
- Date: Sat, 21 Dec 2024 02:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 21:12:40.054957
- Title: Distilling Large Language Models for Efficient Clinical Information Extraction
- Title(参考訳): 効率的な臨床情報抽出のための大規模言語モデルの蒸留
- Authors: Karthik S. Vedula, Annika Gupta, Akshay Swaminathan, Ivan Lopez, Suhana Bedi, Nigam H. Shah,
- Abstract要約: 本研究では, 現在のLLMの約1000倍小さい蒸留BERTモデルの性能評価を行った。
現状のLSM (Gemini と OpenAI モデル) と医学 (RxNorm と SNOMED) を薬剤, 疾患, 症状抽出の教師ラベルとして活用した。
我々は5つの公開データセットにまたがる3300以上の臨床記録にアプローチを適用した。
- 参考スコア(独自算出の注目度): 2.953317125529822
- License:
- Abstract: Large language models (LLMs) excel at clinical information extraction but their computational demands limit practical deployment. Knowledge distillation--the process of transferring knowledge from larger to smaller models--offers a potential solution. We evaluate the performance of distilled BERT models, which are approximately 1,000 times smaller than modern LLMs, for clinical named entity recognition (NER) tasks. We leveraged state-of-the-art LLMs (Gemini and OpenAI models) and medical ontologies (RxNorm and SNOMED) as teacher labelers for medication, disease, and symptom extraction. We applied our approach to over 3,300 clinical notes spanning five publicly available datasets, comparing distilled BERT models against both their teacher labelers and BERT models fine-tuned on human labels. External validation was conducted using clinical notes from the MedAlign dataset. For disease extraction, F1 scores were 0.82 (teacher model), 0.89 (BioBERT trained on human labels), and 0.84 (BioBERT-distilled). For medication, F1 scores were 0.84 (teacher model), 0.91 (BioBERT-human), and 0.87 (BioBERT-distilled). For symptoms: F1 score of 0.73 (teacher model) and 0.68 (BioBERT-distilled). Distilled BERT models had faster inference (12x, 4x, 8x faster than GPT-4o, o1-mini, and Gemini Flash respectively) and lower costs (85x, 101x, 2x cheaper than GPT-4o, o1-mini, and Gemini Flash respectively). On the external validation dataset, the distilled BERT model achieved F1 scores of 0.883 (medication), 0.726 (disease), and 0.699 (symptom). Distilled BERT models were up to 101x cheaper and 12x faster than state-of-the-art LLMs while achieving similar performance on NER tasks. Distillation offers a computationally efficient and scalable alternative to large LLMs for clinical information extraction.
- Abstract(参考訳): 大規模言語モデル(LLM)は臨床情報抽出に優れるが、その計算要求は実際の展開を制限する。
知識蒸留 - より大きなモデルからより小さなモデルへ知識を伝達するプロセス。
臨床的名称付きエンティティ認識 (NER) タスクにおいて, 現在のLCMの約1000倍小さい蒸留BERTモデルの性能を評価する。
我々は,医学的オントロジー(RxNorm,SNOMED)と最先端のLSM(Gemini,OpenAIモデル)を医薬,疾患,症状抽出の教師ラベルとして活用した。
提案手法を5つの公開データセットにまたがる3,300以上の臨床記録に適用し、蒸留したBERTモデルと教師ラベルを微調整したBERTモデルを比較した。
MedAlignデータセットから臨床ノートを用いて外部検証を行った。
疾患抽出では、F1スコアが0.82(教師モデル)、BioBERTが0.89(人間ラベルで訓練)、BioBERTが0.84(蒸留)であった。
F1は0.84点(教師モデル)、0.91点(BioBERT- Human)、0.87点(BioBERT-distilled)であった。
症状: F1スコアは0.73(教師モデル)と0.68(ビオベルト蒸留)である。
蒸留されたBERTモデルは、それぞれGPT-4o、o1-mini、Gemini Flashより12倍、4倍、8倍の速さで、低コスト(GPT-4o、o1-mini、Gemini Flashより85倍、101倍、2倍安い)であった。
外的検証データセットでは、蒸留されたBERTモデルは、0.883点、0.726点、0.699点のスコアを得た。
蒸留されたBERTモデルは、NERタスクで同様の性能を保ちながら、最先端のLLMの最大101倍、12倍高速であった。
蒸留は、臨床情報抽出のための大規模LCMに代わる計算効率が高くスケーラブルな代替手段を提供する。
関連論文リスト
- Larger models yield better results? Streamlined severity classification of ADHD-related concerns using BERT-based knowledge distillation [0.6793286055326242]
自然言語処理アプリケーションのための軽量でパワフルなBERTベースのモデルを作成します。
ソーシャルメディアのテキストデータから,注意欠陥多動性障害(ADHD)の重症度レベルを分類した実世界のタスクに,結果モデルであるLastBERTを適用した。
論文 参考訳(メタデータ) (2024-10-30T17:57:44Z) - Iterative Prompt Refinement for Radiation Oncology Symptom Extraction
Using Teacher-Student Large Language Models [1.3137489010086167]
学生モデルであるMixtralは、まず症状を抽出し、続いて教師モデルであるGPT-4は、Mixtralのパフォーマンスに基づいてプロンプトを洗練する。
その結果, 単症状と多症状のいずれにおいても, 症状の抽出に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-02-06T15:25:09Z) - Distilling Large Language Models for Biomedical Knowledge Extraction: A
Case Study on Adverse Drug Events [17.73671383380315]
本研究では,大規模言語モデル(LLM)が生物医学的知識キュレーションのスケールアップにどのように役立つかを検討する。
コスト,効率,ホワイトボックスモデルアクセスといった付加的なアドバンテージを伴って,アウトオブボックスのLCMよりも大幅に向上できることが判明した。
論文 参考訳(メタデータ) (2023-07-12T20:08:48Z) - Improving Transformer Performance for French Clinical Notes Classification Using Mixture of Experts on a Limited Dataset [0.08192907805418582]
トランスフォーマーベースのモデルは、自然言語処理において顕著な結果を示しているが、小規模臨床テキストの分類のような応用では課題に直面している。
本研究は,CHU Sainte-Justine病院における小規模臨床テキストの分類のための,Mixture of Expert (MoE) Transformerモデルを提案する。
論文 参考訳(メタデータ) (2023-03-22T20:10:29Z) - Exploring the Value of Pre-trained Language Models for Clinical Named
Entity Recognition [6.917786124918387]
我々は、スクラッチからトレーニングされたTransformerモデルと、細調整されたBERTベースのLLMを比較した。
文脈学習を促進するために,追加のCRF層がそのようなモデルに与える影響を検討する。
論文 参考訳(メタデータ) (2022-10-23T16:27:31Z) - ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。
本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。
実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文 参考訳(メタデータ) (2022-05-21T11:52:08Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - EfficientBERT: Progressively Searching Multilayer Perceptron via Warm-up
Knowledge Distillation [82.3956677850676]
事前学習された言語モデルは、様々なNLPタスクにおいて顕著な結果を示した。
サイズが大きく、推論速度が遅いため、エッジデバイスにデプロイするのは困難である。
本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善が、マルチヘッドアテンション(MHA)の改善よりも高い利益をもたらすという批判的な洞察を得る。
論文 参考訳(メタデータ) (2021-09-15T11:25:39Z) - Does BERT Pretrained on Clinical Notes Reveal Sensitive Data? [70.3631443249802]
我々は、トレーニングされたBERTからPersonal Health Informationを復元するためのアプローチのバッテリーを設計する。
具体的には,患者の名前と関連した状態の回復を試みている。
簡単な探索法では,MIMIC-IIIコーパス上で訓練されたBERTから機密情報を有意に抽出できないことがわかった。
論文 参考訳(メタデータ) (2021-04-15T20:40:05Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。