論文の概要: Enhancing LLMs for Identifying and Prioritizing Important Medical Jargons from Electronic Health Record Notes Utilizing Data Augmentation
- arxiv url: http://arxiv.org/abs/2502.16022v2
- Date: Tue, 25 Feb 2025 14:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 11:59:09.309705
- Title: Enhancing LLMs for Identifying and Prioritizing Important Medical Jargons from Electronic Health Record Notes Utilizing Data Augmentation
- Title(参考訳): データ拡張を利用した電子カルテノートから重要な医療ジャーゴンの同定と優先順位付けのためのLCMの強化
- Authors: Won Seok Jang, Sharmin Sultana, Zonghai Yao, Hieu Tran, Zhichao Yang, Sunjae Kwon, Hong Yu,
- Abstract要約: OpenNotesは患者のEHRノートへのアクセスを可能にするが、医療ジャーゴンは理解を妨げる可能性がある。
鍵医学用語の抽出・優先順位付けには, プロンプト, 微調整, データ拡張を併用して, クローズドおよびオープンソースLCMを評価した。
オープンソースモデルは、微調整または拡張されたクローズドソースモデルよりも優れています。
- 参考スコア(独自算出の注目度): 10.548103423700539
- License:
- Abstract: OpenNotes enables patients to access EHR notes, but medical jargon can hinder comprehension. To improve understanding, we evaluated closed- and open-source LLMs for extracting and prioritizing key medical terms using prompting, fine-tuning, and data augmentation. We assessed LLMs on 106 expert-annotated EHR notes, experimenting with (i) general vs. structured prompts, (ii) zero-shot vs. few-shot prompting, (iii) fine-tuning, and (iv) data augmentation. To enhance open-source models in low-resource settings, we used ChatGPT for data augmentation and applied ranking techniques. We incrementally increased the augmented dataset size (10 to 10,000) and conducted 5-fold cross-validation, reporting F1 score and Mean Reciprocal Rank (MRR). Our result show that fine-tuning and data augmentation improved performance over other strategies. GPT-4 Turbo achieved the highest F1 (0.433), while Mistral7B with data augmentation had the highest MRR (0.746). Open-source models, when fine-tuned or augmented, outperformed closed-source models. Notably, the best F1 and MRR scores did not always align. Few-shot prompting outperformed zero-shot in vanilla models, and structured prompts yielded different preferences across models. Fine-tuning improved zero-shot performance but sometimes degraded few-shot performance. Data augmentation performed comparably or better than other methods. Our evaluation highlights the effectiveness of prompting, fine-tuning, and data augmentation in improving model performance for medical jargon extraction in low-resource scenarios.
- Abstract(参考訳): OpenNotesは患者のEHRノートへのアクセスを可能にするが、医療ジャーゴンは理解を妨げる可能性がある。
そこで我々は,鍵となる医療用語を抽出・優先順位付けするために,プロンプト,微調整,データ拡張を用いてクローズドおよびオープンソースLLMを評価した。
専門家注記 EHR ノート106通の LLM の評価を行い,実験を行った。
(i)一般vs.構造化プロンプト
(ii)ゼロショット対少数ショットプロンプト
(三)微調整、及び
(4)データ拡張。
低リソース環境でのオープンソースモデルを強化するため、我々はChatGPTを用いてデータ拡張とランキング手法を適用した。
拡張データセットのサイズ(10~10,000)を徐々に増加させ,F1スコアとMRR(Mean Reciprocal Rank)を報告し,5倍のクロスバリデーションを行った。
その結果、微調整とデータ拡張により、他の戦略よりも性能が向上したことがわかった。
GPT-4 ターボは最高F1(0.433)、ミストラル7Bは最高MRR(0.746)を記録した。
オープンソースモデルは、微調整または拡張されたクローズドソースモデルよりも優れています。
特に、F1とMRRのスコアは必ずしも一致しなかった。
バニラモデルではゼロショットよりもパフォーマンスが優れており、構造化プロンプトはモデル間で異なる好みを与えている。
微調整はゼロショット性能を向上したが、時には数ショット性能を低下させた。
データ拡張は、他の方法よりも多種多種多種多種多様であった。
本評価では,低リソースシナリオにおける医療用ヤゴン抽出におけるモデル性能向上のための,プロンプト,微調整,データ拡張の有効性を強調した。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。
本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文 参考訳(メタデータ) (2024-06-26T03:56:21Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z) - Neural Summarization of Electronic Health Records [8.784162652042957]
本研究では,4つの最先端ニューラルネットワーク要約モデルを用いて,放電要約の様々な部分の自動生成の実現可能性について検討した。
従来の微調整言語モデルでは、レポート全体を要約する性能が向上した。
論文 参考訳(メタデータ) (2023-05-24T15:05:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。