論文の概要: MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction
- arxiv url: http://arxiv.org/abs/2605.20197v1
- Date: Sun, 05 Apr 2026 14:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.961367
- Title: MedicalBench: Evaluating Large Language Models Toward Improved Medical Concept Extraction
- Title(参考訳): MedicalBench: 医療概念抽出の改善に向けた大規模言語モデルの評価
- Authors: Zhichao Yang, Gregory D. Lyng, Sanjit Singh Batra, Robert E. Tillman,
- Abstract要約: 医療概念抽出のためのベンチマークであるMedicalBenchを根拠として提示する。
MIMIC-IV放電サマリーと人間検証ICD-10コードから構築されたデータセットは、大きな言語モデル(LLM)トリアージパイプラインを通じてキュレートされる。
MedicalBenchは、暗黙の根拠に基づく医療概念抽出のための最初の体系的なベンチマークを提供する。
- 参考スコア(独自算出の注目度): 1.1371912210771806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical concept extraction from electronic health records underpins many downstream applications, yet remains challenging because medically meaningful concepts are frequently implied rather than explicitly stated in medical narratives. Existing benchmarks with human-annotated evidence spans underscore the importance of grounding extracted concepts in medical text. However, they predominantly focus on explicitly stated concepts instead of implicit concepts. We present MedicalBench, a benchmark for medical concept extraction with evidence grounding that evaluates implicit medical reasoning. MedicalBench formulates medical concept extraction as a verification task over medical note-concept pairs, coupled with sentence-level evidence identification. Built from MIMIC-IV discharge summaries and human-verified ICD-10 codes, the dataset is curated through a multi-stage large language model (LLM) triage pipeline followed by medical annotation and expert review. It deliberately includes implicit positives, semantically confusable negatives, and cases where LLM judgments disagree with medical expert assessments. We define two complementary evaluation tasks: (1) medical concept extraction and (2) sentence-level evidence retrieval, enabling assessment of both correctness and interpretability. Benchmarking state-of-the-art LLMs reveals that performance remains modest, highlighting the difficulty of extracting implicitly expressed concepts. We further show that performance is largely invariant to note length, indicating that MedicalBench isolates reasoning difficulty rather than superficial confounders. MedicalBench provides the first systematic benchmark for implicit, evidence-grounded medical concept extraction, offering a foundation for developing medical language models that can both identify medically relevant concepts and justify their predictions in a transparent and medically faithful manner.
- Abstract(参考訳): 電子的な医療記録から医療概念を抽出することは、多くの下流の応用を支えているが、医学的な意味のある概念は、医学的物語で明確に述べられているのではなく、しばしば示唆されるため、依然として困難である。
既存のヒトの注釈付きエビデンスによるベンチマークは、抽出された概念を医学的テキストに根拠付けることの重要性を浮き彫りにしている。
しかし、彼らは主に暗黙的な概念ではなく明示的な概念に焦点を当てた。
医学的概念抽出のためのベンチマークであるMedicalBenchについて,暗黙の医学的推論を評価する証拠を根拠として紹介する。
MedicalBenchは、医療用ノートとコンセプトペアの検証タスクとして医療概念抽出を定式化し、文章レベルの証拠を識別する。
MIMIC-IV放電サマリーと人間検証ICD-10コードから構築されたデータセットは、多段階の大規模言語モデル(LLM)トリアージパイプラインを通じてキュレートされ、その後医療アノテーションと専門家レビューが続く。
故意に、暗黙的な肯定、意味的に不愉快な否定、LLMの判断が医学専門家の評価と矛盾する事例を含む。
本研究では,(1)医学的概念抽出と(2)文章レベルのエビデンス検索の2つの補完的評価課題を定義し,正確性と解釈可能性の両立を可能にする。
最先端のLCMのベンチマークでは、性能は控えめであり、暗黙的に表現された概念を抽出することの難しさを浮き彫りにしている。
MedicalBenchは、表面的な共同設立者ではなく、推論の難しさを分離していることを示している。
MedicalBenchは、暗黙的で根拠に基づく医療概念抽出のための最初の体系的なベンチマークを提供し、医療関連の概念を識別し、その予測を透明で医療に忠実な方法で正当化できる医療言語モデルを開発する基盤を提供する。
関連論文リスト
- MedConcept: Unsupervised Concept Discovery for Interpretability in Medical VLMs [2.2615829161440546]
医療ビジョンランゲージモデル(VLM)の解釈可能性は、信頼できる臨床展開に不可欠である。
MedConceptは、完全に教師なしの方法で潜伏する医療概念を明らかにするフレームワークである。
MedConceptは、事前訓練されたVLM表現を擬似レポートスタイルの要約に変換し、医師レベルの内部モデル推論の検査を可能にする。
論文 参考訳(メタデータ) (2026-04-13T17:53:41Z) - MedLayBench-V: A Large-Scale Benchmark for Expert-Lay Semantic Alignment in Medical Vision Language Models [2.0221473384338884]
MedLayBench-Vは、エキスパート・レイ・セマンティックアライメントに特化した最初の大規模マルチモーダル・ベンチマークである。
MedLayBench-Vは、臨床専門家と患者の間のコミュニケーションの分断をブリッジできる次世代のMed-VLMの訓練と評価のための検証された基盤を提供する。
論文 参考訳(メタデータ) (2026-04-07T11:39:41Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - MediSee: Reasoning-based Pixel-level Perception in Medical Images [6.405810587061276]
MedSD(Medical Reasoning and Detection)を導入した新しい医療ビジョンタスクについて紹介する。
MedSDの目的は、医療画像に関する暗黙のクエリを理解し、対応するセグメンテーションマスクとターゲットオブジェクトのバウンディングボックスを生成することである。
医学的推論のセグメンテーションと検出のために設計された効果的なベースラインモデルであるメディセーを提案する。
論文 参考訳(メタデータ) (2025-04-15T09:28:53Z) - MedHal: An Evaluation Dataset for Medical Hallucination Detection [4.98142540436183]
MedHalは、医療用テキストの幻覚をモデルが検出できるかどうかを評価するために設計された、新しい大規模データセットである。
MedHalは,(1)多様な医学的テキストソースとタスクを取り入れ,(2)医学的幻覚検出モデルの訓練に適した注釈付きサンプルを大量に提供し,(3)モデル学習を導くための事実的不整合の説明を含むギャップに対処する。
論文 参考訳(メタデータ) (2025-04-11T14:55:15Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。