論文の概要: CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays
- arxiv url: http://arxiv.org/abs/2505.18087v1
- Date: Fri, 23 May 2025 16:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.230364
- Title: CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays
- Title(参考訳): CXReasonBench:胸部X線における構造診断推論の評価ベンチマーク
- Authors: Hyungyung Lee, Geon Choi, Jung-Oh Lee, Hangyul Yoon, Hyuk Gi Hong, Edward Choi,
- Abstract要約: 我々はCheXStructとCXReasonBenchを紹介した。CheXStructはMIMIC-CXR-JPGデータセット上に構築された構造化パイプラインとベンチマークである。
CheXStructは、自動的に胸部X線から直接中間的推論ステップを導出する。
CXReasonBenchはこのパイプラインを利用して、モデルが臨床的に有効な推論ステップを実行可能であるかどうかを評価する。
- 参考スコア(独自算出の注目度): 9.051771615770075
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent progress in Large Vision-Language Models (LVLMs) has enabled promising applications in medical tasks, such as report generation and visual question answering. However, existing benchmarks focus mainly on the final diagnostic answer, offering limited insight into whether models engage in clinically meaningful reasoning. To address this, we present CheXStruct and CXReasonBench, a structured pipeline and benchmark built on the publicly available MIMIC-CXR-JPG dataset. CheXStruct automatically derives a sequence of intermediate reasoning steps directly from chest X-rays, such as segmenting anatomical regions, deriving anatomical landmarks and diagnostic measurements, computing diagnostic indices, and applying clinical thresholds. CXReasonBench leverages this pipeline to evaluate whether models can perform clinically valid reasoning steps and to what extent they can learn from structured guidance, enabling fine-grained and transparent assessment of diagnostic reasoning. The benchmark comprises 18,988 QA pairs across 12 diagnostic tasks and 1,200 cases, each paired with up to 4 visual inputs, and supports multi-path, multi-stage evaluation including visual grounding via anatomical region selection and diagnostic measurements. Even the strongest of 10 evaluated LVLMs struggle with structured reasoning and generalization, often failing to link abstract knowledge with anatomically grounded visual interpretation. The code is available at https://github.com/ttumyche/CXReasonBench
- Abstract(参考訳): LVLM(Large Vision-Language Models)の最近の進歩は、レポート生成や視覚的質問応答といった医療タスクにおける有望な応用を可能にしている。
しかし、既存のベンチマークは主に最終診断回答に焦点を当てており、モデルが臨床的に意味のある推論に関与しているかどうかについての限られた洞察を提供する。
そこで我々はCheXStructとCXReasonBenchを紹介した。これはMIMIC-CXR-JPGデータセット上に構築された構造化パイプラインとベンチマークである。
CheXStructは、解剖学的領域のセグメンテーション、解剖学的ランドマークと診断測定の導出、診断指標の計算、臨床閾値の適用など、胸部X線から直接の中間的推論ステップを自動で導き出す。
CXReasonBenchはこのパイプラインを利用して、モデルが臨床的に有効な推論ステップを実行可能かどうか、構造化されたガイダンスからどの程度学べるかを評価する。
ベンチマークは、12の診断タスクと1200のケースで18,988のQAペアで構成され、それぞれに最大4つの視覚入力がペアリングされ、解剖学的領域の選択と診断測定による視覚的グラウンドニングを含む多段階評価をサポートする。
評価された10の最強のLVLMでさえ、構造的推論と一般化に苦しむが、しばしば抽象的な知識と解剖学的に根ざした視覚的解釈を結びつけることに失敗する。
コードはhttps://github.com/ttumyche/CXReasonBenchで公開されている。
関連論文リスト
- MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - CheXLearner: Text-Guided Fine-Grained Representation Learning for Progression Detection [14.414457048968439]
我々は、解剖学的領域の検出、構造的アライメント、意味的ガイダンスを統合する最初のエンドツーエンドフレームワークであるCheXLearnerを紹介する。
提案したMed-Manifold Alignment Module (Med-MAM) は双曲幾何学を利用して解剖学的構造を強固に整列させる。
本モデルでは,下流疾患分類における平均AUCスコアが91.52%に達し,その優れた特徴表現が検証された。
論文 参考訳(メタデータ) (2025-05-11T08:51:38Z) - Aligning Human Knowledge with Visual Concepts Towards Explainable Medical Image Classification [8.382606243533942]
本稿では,説明可能な言語インフォームド基準に基づく診断に向けて,シンプルで効果的なフレームワークであるExplicdを紹介した。
事前訓練された視覚言語モデルを活用することで、Explicdはこれらの基準を知識アンカーとして埋め込み空間に注入する。
最終的な診断結果は、符号化された視覚概念とテキストの基準埋め込みとの類似度スコアに基づいて決定される。
論文 参考訳(メタデータ) (2024-06-08T23:23:28Z) - Prompt-Guided Generation of Structured Chest X-Ray Report Using a Pre-trained LLM [5.766695041882696]
事前学習型大言語モデル(LLM)を用いた胸部X線構造レポート作成のためのプロンプト誘導手法を提案する。
まず,胸部X線で解剖学的領域を同定し,重要な視覚要素に焦点を絞った文を生成する。
また,検出された解剖学を,解剖学的理解を LLM に伝達するテキストプロンプトに変換する。
論文 参考訳(メタデータ) (2024-04-17T09:45:43Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z) - Xplainer: From X-Ray Observations to Explainable Zero-Shot Diagnosis [36.45569352490318]
臨床現場でのゼロショット診断のためのフレームワークであるXplainerを紹介した。
Xplainerは、コントラッシブ・ビジョン言語モデルの分類・記述アプローチをマルチラベル診断タスクに適用する。
我々の結果は、Xplainerが意思決定プロセスをより詳細に理解していることを示唆している。
論文 参考訳(メタデータ) (2023-03-23T16:07:31Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - BI-RADS-Net: An Explainable Multitask Learning Approach for Cancer
Diagnosis in Breast Ultrasound Images [69.41441138140895]
本稿では,乳房超音波画像における癌検出のための新しい深層学習手法であるBI-RADS-Netを紹介する。
提案手法は, 臨床診断に関連する特徴表現を学習することにより, 乳腺腫瘍の説明と分類を行うタスクを取り入れたものである。
臨床医が医療現場で診断・報告するために使用する形態学的特徴の観点から予測(良性または悪性)の説明が提供される。
論文 参考訳(メタデータ) (2021-10-05T19:14:46Z) - Act Like a Radiologist: Towards Reliable Multi-view Correspondence
Reasoning for Mammogram Mass Detection [49.14070210387509]
マンモグラム質量検出のための解剖学的グラフ畳み込みネットワーク(AGN)を提案する。
AGNはマンモグラムの質量検出用に調整されており、既存の検出手法を多視点推論能力で実現している。
2つの標準ベンチマークの実験によると、AGNは最先端のパフォーマンスを大幅に上回っている。
論文 参考訳(メタデータ) (2021-05-21T06:48:34Z) - Weakly supervised multiple instance learning histopathological tumor
segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。
トレーニングモデルに複数のインスタンス学習スキームを利用する。
提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文 参考訳(メタデータ) (2020-04-10T13:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。