論文の概要: Enhancing Clinical Multiple-Choice Questions Benchmarks with Knowledge Graph Guided Distractor Generation
- arxiv url: http://arxiv.org/abs/2506.00612v2
- Date: Tue, 03 Jun 2025 05:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.6601
- Title: Enhancing Clinical Multiple-Choice Questions Benchmarks with Knowledge Graph Guided Distractor Generation
- Title(参考訳): 知識グラフ誘導型ディトラクタ生成による臨床多項目質問のベンチマークの強化
- Authors: Running Yang, Wenlong Deng, Minghui Chen, Yuyin Zhou, Xiaoxiao Li,
- Abstract要約: 本稿では,インタプリタを生成することで,臨床データセットの難易度を高める知識誘導型データ拡張フレームワークを提案する。
我々のアプローチは、医療的関連性はあるものの、実際は正しくない、気晴らしの経路-連想を特定するために、医療知識グラフ上の多段階的、意味的に情報を得たウォークである。
設計した知識グラフガイド型イントラクタ生成(KGGDG)ピップラインを6つの広く使用されている医療用QAベンチマークに適用し、最先端のLCMの精度を一貫して低下させることを示す。
- 参考スコア(独自算出の注目度): 29.547871298286687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clinical tasks such as diagnosis and treatment require strong decision-making abilities, highlighting the importance of rigorous evaluation benchmarks to assess the reliability of large language models (LLMs). In this work, we introduce a knowledge-guided data augmentation framework that enhances the difficulty of clinical multiple-choice question (MCQ) datasets by generating distractors (i.e., incorrect choices that are similar to the correct one and may confuse existing LLMs). Using our KG-based pipeline, the generated choices are both clinically plausible and deliberately misleading. Our approach involves multi-step, semantically informed walks on a medical knowledge graph to identify distractor paths-associations that are medically relevant but factually incorrect-which then guide the LLM in crafting more deceptive distractors. We apply the designed knowledge graph guided distractor generation (KGGDG) pipline, to six widely used medical QA benchmarks and show that it consistently reduces the accuracy of state-of-the-art LLMs. These findings establish KGGDG as a powerful tool for enabling more robust and diagnostic evaluations of medical LLMs.
- Abstract(参考訳): 診断や治療などの臨床タスクは、大きな言語モデル(LLM)の信頼性を評価するための厳格な評価ベンチマークの重要性を強調し、強力な意思決定能力を必要とする。
本研究は,臨床多点質問(MCQ)データセットの難易度を高めるための知識誘導型データ拡張フレームワークを提案する。
KGベースのパイプラインを使用して、生成された選択は、臨床的に妥当であり、意図的に誤解を招く。
我々のアプローチは、医療知識グラフ上で多段階的、意味的に情報を得たウォークで、医学的に関係があるが、実際は誤りである障害経路を識別する。
設計した知識グラフガイド型イントラクタ生成(KGGDG)ピップラインを6つの広く使用されている医療用QAベンチマークに適用し、最先端のLCMの精度を一貫して低下させることを示す。
これらの結果から,KGGDGは医療用LLMのより堅牢かつ診断的な評価を可能にする強力なツールであると考えられた。
関連論文リスト
- Improving Reliability and Explainability of Medical Question Answering through Atomic Fact Checking in Retrieval-Augmented LLMs [4.003209132872364]
大型言語モデル (LLM) は医学的知識が豊富であるが、幻覚や不正確な引用の傾向にある。
Retrieval Augmented Generationのような現在の手法は、ソース文書の回答を根拠にすることで、これらの問題に部分的に対処する。
我々は,LLMの信頼性と説明可能性を高めるために,新しい原子ファクトチェックフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-30T17:33:07Z) - Can LLMs Support Medical Knowledge Imputation? An Evaluation-Based Perspective [1.4913052010438639]
我々は,Large Language Models (LLMs) を用いて,欠落した治療関係を計算した。
LLMは、知識増強において有望な能力を提供するが、医療知識計算におけるそれらの応用は、重大なリスクをもたらす。
本研究は, 臨床ガイドラインの不整合, 患者の安全性への潜在的なリスクなど, 重大な限界を指摘した。
論文 参考訳(メタデータ) (2025-03-29T02:52:17Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。
LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文 参考訳(メタデータ) (2024-06-03T01:32:52Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Large Language Models for Biomedical Knowledge Graph Construction:
Information extraction from EMR notes [0.0]
大規模言語モデル(LLM)に基づくエンドツーエンド機械学習ソリューションを提案する。
KG構築プロセスで使用される物質は、疾患、因子、治療、および疾患を経験中に患者と共存する症状である。
提案手法の応用は加齢に伴う黄斑変性に対して実証される。
論文 参考訳(メタデータ) (2023-01-29T15:52:33Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。