論文の概要: Facts Fade Fast: Evaluating Memorization of Outdated Medical Knowledge in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.04304v1
- Date: Thu, 04 Sep 2025 15:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.202222
- Title: Facts Fade Fast: Evaluating Memorization of Outdated Medical Knowledge in Large Language Models
- Title(参考訳): Facts Fade Fast:大規模言語モデルにおける時代遅れの医学的知識の記憶の評価
- Authors: Juraj Vladika, Mahdi Dhaini, Florian Matthes,
- Abstract要約: 大規模言語モデルは、医学研究者や医師を支援することで、医療を強化する可能性を示している。
静的トレーニングデータへの依存は、新しい研究や開発と共に医療レコメンデーションが進化する際の大きなリスクである。
- 参考スコア(独自算出の注目度): 23.266037521209796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing capabilities of Large Language Models (LLMs) show significant potential to enhance healthcare by assisting medical researchers and physicians. However, their reliance on static training data is a major risk when medical recommendations evolve with new research and developments. When LLMs memorize outdated medical knowledge, they can provide harmful advice or fail at clinical reasoning tasks. To investigate this problem, we introduce two novel question-answering (QA) datasets derived from systematic reviews: MedRevQA (16,501 QA pairs covering general biomedical knowledge) and MedChangeQA (a subset of 512 QA pairs where medical consensus has changed over time). Our evaluation of eight prominent LLMs on the datasets reveals consistent reliance on outdated knowledge across all models. We additionally analyze the influence of obsolete pre-training data and training strategies to explain this phenomenon and propose future directions for mitigation, laying the groundwork for developing more current and reliable medical AI systems.
- Abstract(参考訳): LLM(Large Language Models)の能力の増大は、医学研究者や医師を支援することで、医療を強化する大きな可能性を示している。
しかしながら、静的トレーニングデータへの依存は、新しい研究や開発と共に医療レコメンデーションが進化する際の大きなリスクである。
LLMが時代遅れの医療知識を記憶すると、有害なアドバイスや臨床推論タスクで失敗する可能性がある。
MedRevQA (16,501QA) と MedChangeQA (16,501QA) の2つの新しいQAデータセットを紹介した。
データセット上の8つの顕著なLCMの評価は、すべてのモデルにまたがる時代遅れの知識に一貫して依存していることを明らかにする。
さらに、この現象を説明するために、時代遅れの事前学習データやトレーニング戦略の影響を分析し、緩和に向けた今後の方向性を提案し、より最新で信頼性の高い医療AIシステムを開発するための基盤を築き上げます。
関連論文リスト
- Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering [5.065947993017158]
大きな言語モデル(LLM)は、大きなテキストコーパスで事前学習中に知識を符号化する印象的な能力を示している。
体系的レビューから得られた新しいデータセットを構築することにより, LLMが医療知識のリコールを示す能力について検討する。
論文 参考訳(メタデータ) (2024-06-09T16:33:28Z) - Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models [4.8775268199830935]
本研究は、自己診断ツールとしての大規模言語モデル(LLM)の有効性と、医療情報の拡散における役割を評価することを目的とする。
我々は,実世界の自己診断を模倣するオープンエンド質問を用いて,現実的な自己診断を模倣する文のドロップアウトを行い,情報不足を伴う現実的な自己診断を模倣する。
その結果, LLMの応答が不明確で不正確な場合が多いため, LLMの質素な機能を強調した。
論文 参考訳(メタデータ) (2023-07-10T21:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。