論文の概要: Assessing and Mitigating Medical Knowledge Drift and Conflicts in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07968v1
- Date: Mon, 12 May 2025 18:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.299592
- Title: Assessing and Mitigating Medical Knowledge Drift and Conflicts in Large Language Models
- Title(参考訳): 大規模言語モデルにおける医学的知識の不足と矛盾の評価と緩和
- Authors: Weiyi Wu, Xinwen Xu, Chongyang Gao, Xingjian Diao, Siting Li, Lucas A. Salas, Jiang Gui,
- Abstract要約: 大規模言語モデル(LLM)は医療の分野で大きな可能性を秘めているが、急速に発展する医療知識に適応する上で大きな課題に直面している。
本研究は, LLMが臨床ガイドラインの進展にどう反応するかを考察し, 概念の漂流と内的矛盾に着目した。
- 参考スコア(独自算出の注目度): 7.643309077806448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have great potential in the field of health care, yet they face great challenges in adapting to rapidly evolving medical knowledge. This can lead to outdated or contradictory treatment suggestions. This study investigated how LLMs respond to evolving clinical guidelines, focusing on concept drift and internal inconsistencies. We developed the DriftMedQA benchmark to simulate guideline evolution and assessed the temporal reliability of various LLMs. Our evaluation of seven state-of-the-art models across 4,290 scenarios demonstrated difficulties in rejecting outdated recommendations and frequently endorsing conflicting guidance. Additionally, we explored two mitigation strategies: Retrieval-Augmented Generation and preference fine-tuning via Direct Preference Optimization. While each method improved model performance, their combination led to the most consistent and reliable results. These findings underscore the need to improve LLM robustness to temporal shifts to ensure more dependable applications in clinical practice.
- Abstract(参考訳): 大規模言語モデル(LLM)は医療の分野で大きな可能性を秘めているが、急速に発展する医療知識に適応する上で大きな課題に直面している。
これは時代遅れまたは矛盾した治療提案につながる可能性がある。
本研究は, LLMが臨床ガイドラインの進展にどう反応するかを考察し, 概念の漂流と内的矛盾に着目した。
我々は、ガイドラインの進化をシミュレートするDriftMedQAベンチマークを開発し、様々なLCMの時間的信頼性を評価した。
4,290のシナリオにまたがる7つの最先端モデルの評価は、時代遅れの推奨を拒絶することや、矛盾するガイダンスを頻繁に支持することの難しさを証明した。
さらに、我々は2つの緩和戦略について検討した。
それぞれの手法はモデルの性能を改善したが、それらの組み合わせは最も一貫性があり信頼性の高い結果をもたらした。
これらの知見は、臨床実習におけるより信頼性の高い応用を確保するために、LCMの堅牢性を時間的シフトに改善する必要性を浮き彫りにした。
関連論文リスト
- Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Addressing Overprescribing Challenges: Fine-Tuning Large Language Models for Medication Recommendation Tasks [46.95099594570405]
医療レコメンデーションシステムは、患者の臨床データに基づいて、パーソナライズされた効果的な薬物の組み合わせを提供する可能性について、医療機関内で注目を集めている。
既存の手法は、多様な電子健康記録(EHR)システムに適応する際の課題に直面する。
本稿では,Language-Assisted Medication Recommendation (LAMO)を提案する。
論文 参考訳(メタデータ) (2025-03-05T17:28:16Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。
医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。
その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-09-11T14:44:51Z) - IntelliCare: Improving Healthcare Analysis with Variance-Controlled Patient-Level Knowledge from Large Language Models [14.709233593021281]
LLM(Large Language Models)からの外部知識の統合は、医療予測を改善するための有望な道を示す。
我々は,LLMを活用して高品質な患者レベルの外部知識を提供する新しいフレームワークであるIntelliCareを提案する。
IntelliCareは患者のコホートを特定し、LCMの理解と生成を促進するためにタスク関連統計情報を利用する。
論文 参考訳(メタデータ) (2024-08-23T13:56:00Z) - Beyond Self-Consistency: Ensemble Reasoning Boosts Consistency and Accuracy of LLMs in Cancer Staging [0.33554367023486936]
がんのステージング状態は臨床報告で確認できるが、抽出するには自然言語処理が必要である。
臨床指向の大規模言語モデルの進歩により、アルゴリズムの訓練に多大な努力を払わずに、そのような状態を抽出することが期待されている。
本研究では,モデル生成の一貫性向上を目的としたアンサンブル推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T19:34:35Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。