論文の概要: Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment
- arxiv url: http://arxiv.org/abs/2502.14275v1
- Date: Thu, 20 Feb 2025 05:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:29.301390
- Title: Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment
- Title(参考訳): Fact or Guesswork? 構造化ワンホップ判断による大規模言語モデルの医学的知識の評価
- Authors: Jiaxi Li, Yiwei Wang, Kai Zhang, Yujun Cai, Bryan Hooi, Nanyun Peng, Kai-Wei Chang, Jin Lu,
- Abstract要約: 大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
- 参考スコア(独自算出の注目度): 108.55277188617035
- License:
- Abstract: Large language models (LLMs) have been widely adopted in various downstream task domains. However, their ability to directly recall and apply factual medical knowledge remains under-explored. Most existing medical QA benchmarks assess complex reasoning or multi-hop inference, making it difficult to isolate LLMs' inherent medical knowledge from their reasoning capabilities. Given the high-stakes nature of medical applications, where incorrect information can have critical consequences, it is essential to evaluate how well LLMs encode, retain, and recall fundamental medical facts. To bridge this gap, we introduce the Medical Knowledge Judgment, a dataset specifically designed to measure LLMs' one-hop factual medical knowledge. MKJ is constructed from the Unified Medical Language System (UMLS), a large-scale repository of standardized biomedical vocabularies and knowledge graphs. We frame knowledge assessment as a binary judgment task, requiring LLMs to verify the correctness of medical statements extracted from reliable and structured knowledge sources. Our experiments reveal that LLMs struggle with factual medical knowledge retention, exhibiting significant performance variance across different semantic categories, particularly for rare medical conditions. Furthermore, LLMs show poor calibration, often being overconfident in incorrect answers. To mitigate these issues, we explore retrieval-augmented generation, demonstrating its effectiveness in improving factual accuracy and reducing uncertainty in medical decision-making.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な下流タスクドメインで広く採用されている。
しかし、実際の医学的知識を直接呼び起こし、応用する能力はいまだ研究されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
誤った情報が重大な結果をもたらす医療応用の高度な性質を考えると、LCMがいかに根本的医療事実をコード化し、保持し、思い出させるかを評価することが不可欠である。
このギャップを埋めるために、私たちはLSMの事実上の医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介します。
MKJは、標準化されたバイオメディカル語彙と知識グラフの大規模リポジトリであるUMLS(Unified Medical Language System)から構築されている。
我々は,知識評価を二分判定タスクとして設定し,信頼性および構造化された知識源から抽出した医療論文の正当性を検証するためにLLMを必要とする。
実験の結果,LSMは事実的医学的知識の保持に苦慮し,特に稀な医学的条件において,意味の異なるカテゴリ間で大きなパフォーマンスのばらつきを示すことが明らかとなった。
さらに、LSMはキャリブレーションが悪く、しばしば不正確な答えに過信される。
これらの問題を緩和するため, 検索強化世代を探索し, 事実精度の向上と医療意思決定の不確実性の低減に有効性を示す。
関連論文リスト
- CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - Reliable and diverse evaluation of LLM medical knowledge mastery [6.825565574784612]
本稿では,医療用LDMの信頼性と多種多様な検査サンプルを生成する新しいフレームワークを提案する。
提案手法を用いて,12の有名なLCMの医学的事実知識の習得を体系的に調査する。
論文 参考訳(メタデータ) (2024-09-22T03:13:38Z) - Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning [42.38865072597821]
大規模言語モデル(LLM)は多用途であり、印象的な一般化能力を示している。
彼らは今でも推論ミスを示しており、しばしば知識不足から起因している。
LLMの知識不足を診断・治療するためのラベルフリーなカリキュラム意味学習フレームワーク(LaMer)を提案する。
論文 参考訳(メタデータ) (2024-08-21T08:39:49Z) - MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering [5.065947993017158]
大きな言語モデル(LLM)は、大きなテキストコーパスで事前学習中に知識を符号化する印象的な能力を示している。
体系的レビューから得られた新しいデータセットを構築することにより, LLMが医療知識のリコールを示す能力について検討する。
論文 参考訳(メタデータ) (2024-06-09T16:33:28Z) - MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge [4.8004472307210255]
大規模言語モデル (LLMs) はドメイン間で優れており、医療評価ベンチマークで顕著なパフォーマンスを提供している。
しかし、実際の医療シナリオにおける報告されたパフォーマンスと実践的効果の間には、依然として大きなギャップがある。
医療知識のエンコーディングと習得におけるLLMの程度と範囲を検討するための,新しい評価フレームワークであるMultifacetEvalを開発した。
論文 参考訳(メタデータ) (2024-06-05T04:15:07Z) - Editing Factual Knowledge and Explanatory Ability of Medical Large Language Models [89.13883089162951]
モデル編集は、大きな言語モデル(LLM)の振る舞いを、特定の知識に関連して正確に変更することを目的としている。
このアプローチは、LLMにおける幻覚や時代遅れの情報の問題に対処する上で有効であることが証明されている。
しかし、医療分野における知識の修正にモデル編集を用いることの可能性はほとんど解明されていない。
論文 参考訳(メタデータ) (2024-02-28T06:40:57Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Knowledge-tuning Large Language Models with Structured Medical Knowledge
Bases for Reliable Response Generation in Chinese [29.389119917322102]
大規模言語モデル(LLM)は、汎用ドメインにおける多種多様な自然言語処理(NLP)タスクにおいて顕著な成功を収めている。
本稿では,LLMがドメイン知識を効率的に把握するために,構造化された医療知識ベースを活用する知識チューニングを提案する。
また、医療知識ベースから構築された中国の医学知識質問応答データセットであるcMedKnowQAをリリースする。
論文 参考訳(メタデータ) (2023-09-08T07:42:57Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。