論文の概要: Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments
- arxiv url: http://arxiv.org/abs/2502.14275v2
- Date: Tue, 19 Aug 2025 00:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.406284
- Title: Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments
- Title(参考訳): Fact or Guesswork? 構造化ワンホップ判断による大規模言語モデルの医学的知識の評価
- Authors: Jiaxi Li, Yiwei Wang, Kai Zhang, Yujun Cai, Bryan Hooi, Nanyun Peng, Kai-Wei Chang, Jin Lu,
- Abstract要約: 大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
- 参考スコア(独自算出の注目度): 108.55277188617035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been widely adopted in various downstream task domains. However, their abilities to directly recall and apply factual medical knowledge remains under-explored. Most existing medical QA benchmarks assess complex reasoning or multi-hop inference, making it difficult to isolate LLMs' inherent medical knowledge from their reasoning capabilities. Given the high-stakes nature of medical applications, where incorrect information can have critical consequences, it is essential to evaluate the factuality of LLMs to retain medical knowledge. To address this challenge, we introduce the Medical Knowledge Judgment Dataset (MKJ), a dataset derived from the Unified Medical Language System (UMLS), a comprehensive repository of standardized biomedical vocabularies and knowledge graphs. Through a binary classification framework, MKJ evaluates LLMs' grasp of fundamental medical facts by having them assess the validity of concise, one-hop statements, enabling direct measurement of their knowledge retention capabilities. Our experiments reveal that LLMs have difficulty accurately recalling medical facts, with performances varying substantially across semantic types and showing notable weakness in uncommon medical conditions. Furthermore, LLMs show poor calibration, often being overconfident in incorrect answers. To mitigate these issues, we explore retrieval-augmented generation, demonstrating its effectiveness in improving factual accuracy and reducing uncertainty in medical decision-making.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されている。
しかし、実際の医学的知識を直接呼び起こし、応用する能力はいまだに未解明のままである。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
誤った情報が重大な結果をもたらす医療応用の高度性を考えると、医療知識を維持するためにLLMの事実を評価することが不可欠である。
この課題に対処するために,Unified Medical Language System (UMLS) から派生した,標準化されたバイオメディカル語彙と知識グラフの包括的リポジトリであるMKJ(Messical Knowledge Judgment Dataset)を導入する。
バイナリ分類フレームワークを通じて、MKJはLLMの基本的な医学的事実の把握を、簡潔でワンホップな文の妥当性を評価して評価し、知識保持能力の直接測定を可能にした。
実験の結果, LLMは, 医学的事実を正確に再現することが困難であり, セマンティックタイプによってパフォーマンスが著しく変化し, 異常な医療状況において顕著な弱点がみられた。
さらに、LSMはキャリブレーションが悪く、しばしば不正確な答えに過信される。
これらの問題を緩和するため, 検索強化世代を探索し, 事実精度の向上と医療意思決定の不確実性の低減に有効性を示す。
関連論文リスト
- MIRIAD: Augmenting LLMs with millions of medical query-response pairs [36.32674607022871]
医療用QAペア5,821,948の大規模キュレートコーパスであるMIRIADを紹介する。
また,MIRIADの精度はRAGベースラインに比べて6.7%向上した。
56の医学分野にまたがるMIRIADのインタラクティブマップであるMIRIAD-Atlasについても紹介する。
論文 参考訳(メタデータ) (2025-06-06T13:52:32Z) - Beyond Memorization: A Rigorous Evaluation Framework for Medical Knowledge Editing [72.8373875453882]
知識編集(KE)は,大規模言語モデル(LLM)の特定の事実を,完全なリトレーニングを必要とせずに更新する,有望なアプローチとして登場した。
本稿では,医療領域における既存のKE手法の有効性を厳格に評価するために,MedEditBenchという新しいフレームワークを提案する。
以上の結果から,現在のKE法は,新たなシナリオへの一般化に失敗し,インジェクションされた情報の表層記憶に留まることが示唆された。
論文 参考訳(メタデータ) (2025-06-04T02:14:43Z) - Improving Reliability and Explainability of Medical Question Answering through Atomic Fact Checking in Retrieval-Augmented LLMs [4.003209132872364]
大型言語モデル (LLM) は医学的知識が豊富であるが、幻覚や不正確な引用の傾向にある。
Retrieval Augmented Generationのような現在の手法は、ソース文書の回答を根拠にすることで、これらの問題に部分的に対処する。
我々は,LLMの信頼性と説明可能性を高めるために,新しい原子ファクトチェックフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-30T17:33:07Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Reliable and diverse evaluation of LLM medical knowledge mastery [6.825565574784612]
本稿では,医療用LDMの信頼性と多種多様な検査サンプルを生成する新しいフレームワークを提案する。
提案手法を用いて,12の有名なLCMの医学的事実知識の習得を体系的に調査する。
論文 参考訳(メタデータ) (2024-09-22T03:13:38Z) - Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning [42.38865072597821]
大規模言語モデル(LLM)は多用途であり、印象的な一般化能力を示している。
彼らは今でも推論ミスを示しており、しばしば知識不足から起因している。
LLMの知識不足を診断・治療するためのラベルフリーなカリキュラム意味学習フレームワーク(LaMer)を提案する。
論文 参考訳(メタデータ) (2024-08-21T08:39:49Z) - MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering [5.065947993017158]
大きな言語モデル(LLM)は、大きなテキストコーパスで事前学習中に知識を符号化する印象的な能力を示している。
体系的レビューから得られた新しいデータセットを構築することにより, LLMが医療知識のリコールを示す能力について検討する。
論文 参考訳(メタデータ) (2024-06-09T16:33:28Z) - MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge [4.8004472307210255]
大規模言語モデル (LLMs) はドメイン間で優れており、医療評価ベンチマークで顕著なパフォーマンスを提供している。
しかし、実際の医療シナリオにおける報告されたパフォーマンスと実践的効果の間には、依然として大きなギャップがある。
医療知識のエンコーディングと習得におけるLLMの程度と範囲を検討するための,新しい評価フレームワークであるMultifacetEvalを開発した。
論文 参考訳(メタデータ) (2024-06-05T04:15:07Z) - Editing Factual Knowledge and Explanatory Ability of Medical Large Language Models [89.13883089162951]
モデル編集は、大きな言語モデル(LLM)の振る舞いを、特定の知識に関連して正確に変更することを目的としている。
このアプローチは、LLMにおける幻覚や時代遅れの情報の問題に対処する上で有効であることが証明されている。
しかし、医療分野における知識の修正にモデル編集を用いることの可能性はほとんど解明されていない。
論文 参考訳(メタデータ) (2024-02-28T06:40:57Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Quantifying Self-diagnostic Atomic Knowledge in Chinese Medical Foundation Model: A Computational Analysis [55.742339781494046]
ファンデーションモデル(FM)は、直接的で効率的な提案を提供することで、ユーザーが検索エンジンを通して自己診断する方法に革命をもたらす可能性がある。
近年の研究では、GPT-4で評価されたFMの品質や、医学試験に合格する能力に焦点が当てられている。
FMの記憶に蓄えられた自己診断的原子知識の程度を定量化する研究はない。
論文 参考訳(メタデータ) (2023-10-18T05:42:22Z) - Don't Ignore Dual Logic Ability of LLMs while Privatizing: A
Data-Intensive Analysis in Medical Domain [19.46334739319516]
本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。
以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-08T08:20:46Z) - Knowledge-tuning Large Language Models with Structured Medical Knowledge
Bases for Reliable Response Generation in Chinese [29.389119917322102]
大規模言語モデル(LLM)は、汎用ドメインにおける多種多様な自然言語処理(NLP)タスクにおいて顕著な成功を収めている。
本稿では,LLMがドメイン知識を効率的に把握するために,構造化された医療知識ベースを活用する知識チューニングを提案する。
また、医療知識ベースから構築された中国の医学知識質問応答データセットであるcMedKnowQAをリリースする。
論文 参考訳(メタデータ) (2023-09-08T07:42:57Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。