論文の概要: Large Language Models Lack Temporal Awareness of Medical Knowledge
- arxiv url: http://arxiv.org/abs/2605.13045v1
- Date: Wed, 13 May 2026 06:04:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.837295
- Title: Large Language Models Lack Temporal Awareness of Medical Knowledge
- Title(参考訳): 医学的知識の時間的認識を欠く大規模言語モデル
- Authors: Zihan Guan, Qiao Jin, Guangzhi Xiong, Fangyuan Chen, Mengxuan Hu, Qingyu Chen, Yifan Peng, Zhiyong Lu, Anil Vullikanti,
- Abstract要約: LLM(Large Language Models)の医学的知識を評価する既存の手法は、主に時間的検査スタイルのベンチマークに基づいている。
医用領域におけるLCMの時間的認識をガイドライン知識の進化を通じて評価するための,第一種ベンチマークである TempoMed-Bench を構築した。
- 参考スコア(独自算出の注目度): 30.240452466538073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The existing methods for evaluating the medical knowledge of Large Language Models (LLMs) are largely based on atemporal examination-style benchmarks, while in reality, medical knowledge is inherently dynamic and continuously evolves as new evidence emerges and treatments are approved. Consequently, evaluating medical knowledge without a temporal context may provide an incomplete assessment of whether LLMs can accurately reason about time-specific medical knowledge. Moreover, most medical data are historical, requiring the models not only to recall the correct knowledge, but also to know when that knowledge is correct. To bridge the gap, we built TempoMed-Bench, the first-of-its-kind benchmark for evaluating the temporal awareness of the LLMs in the medical domain through evolving guideline knowledge. Based on the TempoMed-Bench, our evaluation analysis first reveals that LLMs lack temporal awareness in medical knowledge through the key findings: (1) model performance on up-to-date medical knowledge exhibits a gradual linear decline over time rather than a sharp knowledge-cutoff behavior, suggesting that parametric medical knowledge is not strictly bounded by knowledge cutoffs; (2) LLMs consistently struggle more with recalling outdated historical medical knowledge than with up-to-date recommendations: accuracy of historical knowledge is only 25.37%-53.89% of up-to-date knowledge, indicating potential knowledge forgetting effects during training; and (3) LLMs often exhibit temporally inconsistent behaviors, where predictions fluctuate irregularly across neighboring years. We also show that the temporal awareness problem is a challenge that cannot be easily solved when integrated with agentic search tools (-3.15%-14.14%). This work highlights an important yet underexplored challenge and motivates future research on developing LLMs that can better encode time-specific medical knowledge.
- Abstract(参考訳): LLM(Large Language Models)の医学的知識を評価する既存の手法は、主に時間的検査スタイルのベンチマークに基づいており、実際には、医学的知識は本質的に動的であり、新たな証拠が出現し、治療が承認されるにつれて継続的に進化する。
したがって、時間的文脈なしに医療知識を評価することは、LLMが時間固有の医療知識について正確に推論できるかどうかを不完全な評価を与える可能性がある。
さらに、ほとんどの医療データは歴史的であり、モデルが正しい知識を思い出すだけでなく、その知識がいつ正しいかを知る必要がある。
このギャップを埋めるために、私たちは、ガイドライン知識の進化を通じて医療領域におけるLLMの時間的認識を評価するための第一種ベンチマークであるTempoMed-Benchを構築しました。
評価分析では,(1) 最新の医療知識のモデル性能は,知識遮断行動ではなく,時間とともに漸進的に低下する傾向を示し,(2) パラメトリック医療知識は知識遮断によって厳密に拘束されないこと,(2) 過去の医学知識のリコールに一貫して苦慮していること,(2) 履歴知識の正確さは25.37%-53.89%, トレーニング中の影響を忘れることの潜在的な知識を示すこと,(3) 学習中に不規則に予測が変動する時間的不整合性を示すこと,など,重要な知見を通じて,医学知識に時間的認識が欠如していることを明らかにした。
また,エージェント検索ツール(3.15%~14.14%)と統合した場合,時間的認識問題は容易に解決できない課題であることを示す。
この研究は、未調査の重要な課題を強調し、時間固有の医療知識をよりうまくエンコードできるLSMの開発に向けた将来の研究を動機付けている。
関連論文リスト
- Facts Fade Fast: Evaluating Memorization of Outdated Medical Knowledge in Large Language Models [23.266037521209796]
大規模言語モデルは、医学研究者や医師を支援することで、医療を強化する可能性を示している。
静的トレーニングデータへの依存は、新しい研究や開発と共に医療レコメンデーションが進化する際の大きなリスクである。
論文 参考訳(メタデータ) (2025-09-04T15:17:50Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Reliable and diverse evaluation of LLM medical knowledge mastery [6.825565574784612]
本稿では,医療用LDMの信頼性と多種多様な検査サンプルを生成する新しいフレームワークを提案する。
提案手法を用いて,12の有名なLCMの医学的事実知識の習得を体系的に調査する。
論文 参考訳(メタデータ) (2024-09-22T03:13:38Z) - Editing Factual Knowledge and Explanatory Ability of Medical Large Language Models [89.13883089162951]
モデル編集は、大きな言語モデル(LLM)の振る舞いを、特定の知識に関連して正確に変更することを目的としている。
このアプローチは、LLMにおける幻覚や時代遅れの情報の問題に対処する上で有効であることが証明されている。
しかし、医療分野における知識の修正にモデル編集を用いることの可能性はほとんど解明されていない。
論文 参考訳(メタデータ) (2024-02-28T06:40:57Z) - Don't Ignore Dual Logic Ability of LLMs while Privatizing: A
Data-Intensive Analysis in Medical Domain [19.46334739319516]
本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。
以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-08T08:20:46Z) - Knowledge-tuning Large Language Models with Structured Medical Knowledge
Bases for Reliable Response Generation in Chinese [29.389119917322102]
大規模言語モデル(LLM)は、汎用ドメインにおける多種多様な自然言語処理(NLP)タスクにおいて顕著な成功を収めている。
本稿では,LLMがドメイン知識を効率的に把握するために,構造化された医療知識ベースを活用する知識チューニングを提案する。
また、医療知識ベースから構築された中国の医学知識質問応答データセットであるcMedKnowQAをリリースする。
論文 参考訳(メタデータ) (2023-09-08T07:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。