論文の概要: Assessing and Mitigating Medical Knowledge Drift and Conflicts in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07968v2
- Date: Thu, 19 Jun 2025 10:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:51.879363
- Title: Assessing and Mitigating Medical Knowledge Drift and Conflicts in Large Language Models
- Title(参考訳): 大規模言語モデルにおける医学的知識の不足と矛盾の評価と緩和
- Authors: Weiyi Wu, Xinwen Xu, Chongyang Gao, Xingjian Diao, Siting Li, Lucas A. Salas, Jiang Gui,
- Abstract要約: 大規模言語モデル(LLM)は医療の分野で大きな可能性を秘めているが、急速に発展する医療知識に適応する上で大きな課題に直面している。
本研究は, LLMが臨床ガイドラインの進展にどう反応するかを考察し, 概念の漂流と内的矛盾に着目した。
4,290のシナリオにまたがる7つの最先端モデルの評価は、時代遅れのレコメンデーションを拒絶することの難しさを証明した。
- 参考スコア(独自算出の注目度): 7.643309077806448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have great potential in the field of health care, yet they face great challenges in adapting to rapidly evolving medical knowledge. This can lead to outdated or contradictory treatment suggestions. This study investigated how LLMs respond to evolving clinical guidelines, focusing on concept drift and internal inconsistencies. We developed the DriftMedQA benchmark to simulate guideline evolution and assessed the temporal reliability of various LLMs. Our evaluation of seven state-of-the-art models across 4,290 scenarios demonstrated difficulties in rejecting outdated recommendations and frequently endorsing conflicting guidance. Additionally, we explored two mitigation strategies: Retrieval-Augmented Generation and preference fine-tuning via Direct Preference Optimization. While each method improved model performance, their combination led to the most consistent and reliable results. These findings underscore the need to improve LLM robustness to temporal shifts to ensure more dependable applications in clinical practice. The dataset is available at https://huggingface.co/datasets/RDBH/DriftMed.
- Abstract(参考訳): 大規模言語モデル(LLM)は医療の分野で大きな可能性を秘めているが、急速に発展する医療知識に適応する上で大きな課題に直面している。
これは時代遅れまたは矛盾した治療提案につながる可能性がある。
本研究は, LLMが臨床ガイドラインの進展にどう反応するかを考察し, 概念の漂流と内的矛盾に着目した。
我々は、ガイドラインの進化をシミュレートするDriftMedQAベンチマークを開発し、様々なLCMの時間的信頼性を評価した。
4,290のシナリオにまたがる7つの最先端モデルの評価は、時代遅れの推奨を拒絶することや、矛盾するガイダンスを頻繁に支持することの難しさを証明した。
さらに、我々は2つの緩和戦略について検討した。
それぞれの手法はモデルの性能を改善したが、それらの組み合わせは最も一貫性があり信頼性の高い結果をもたらした。
これらの知見は、臨床実習におけるより信頼性の高い応用を確保するために、LCMの堅牢性を時間的シフトに改善する必要性を浮き彫りにした。
データセットはhttps://huggingface.co/datasets/RDBH/DriftMedで公開されている。
関連論文リスト
- Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Addressing Overprescribing Challenges: Fine-Tuning Large Language Models for Medication Recommendation Tasks [46.95099594570405]
医療レコメンデーションシステムは、患者の臨床データに基づいて、パーソナライズされた効果的な薬物の組み合わせを提供する可能性について、医療機関内で注目を集めている。
既存の手法は、多様な電子健康記録(EHR)システムに適応する際の課題に直面する。
本稿では,Language-Assisted Medication Recommendation (LAMO)を提案する。
論文 参考訳(メタデータ) (2025-03-05T17:28:16Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Med-R$^2$: Crafting Trustworthy LLM Physicians via Retrieval and Reasoning of Evidence-Based Medicine [40.651632523697536]
大言語モデル(LLM)は臨床シナリオにおいて顕著な機能を示した。
我々はEvidence-Based Medicine(EBM)プロセスに準拠した新しいフレームワークであるMed-R2を紹介する。
実験の結果, Med-R2はバニラRAG法よりも14.74%改善し, 微調整法に比べて3.32%向上した。
論文 参考訳(メタデータ) (2025-01-21T04:40:43Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。
医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。
その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-09-11T14:44:51Z) - IntelliCare: Improving Healthcare Analysis with Variance-Controlled Patient-Level Knowledge from Large Language Models [14.709233593021281]
LLM(Large Language Models)からの外部知識の統合は、医療予測を改善するための有望な道を示す。
我々は,LLMを活用して高品質な患者レベルの外部知識を提供する新しいフレームワークであるIntelliCareを提案する。
IntelliCareは患者のコホートを特定し、LCMの理解と生成を促進するためにタスク関連統計情報を利用する。
論文 参考訳(メタデータ) (2024-08-23T13:56:00Z) - RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models [35.60385437194243]
現在の医療用大規模視覚言語モデル(Med-LVLM)は、しばしば現実の問題に遭遇する。
外部知識を利用するRAGは、これらのモデルの現実的精度を向上させることができるが、2つの大きな課題を提起する。
本稿では,2つのコンポーネントからなるRULEを提案する。まず,検索したコンテキストの選択を通じて事実性リスクを制御するための有効な戦略を提案する。
次に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-06T16:45:07Z) - Beyond Self-Consistency: Ensemble Reasoning Boosts Consistency and Accuracy of LLMs in Cancer Staging [0.33554367023486936]
がんのステージング状態は臨床報告で確認できるが、抽出するには自然言語処理が必要である。
臨床指向の大規模言語モデルの進歩により、アルゴリズムの訓練に多大な努力を払わずに、そのような状態を抽出することが期待されている。
本研究では,モデル生成の一貫性向上を目的としたアンサンブル推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T19:34:35Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。