論文の概要: X-PCR: A Benchmark for Cross-modality Progressive Clinical Reasoning in Ophthalmic Diagnosis
- arxiv url: http://arxiv.org/abs/2604.20350v1
- Date: Wed, 22 Apr 2026 08:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.049792
- Title: X-PCR: A Benchmark for Cross-modality Progressive Clinical Reasoning in Ophthalmic Diagnosis
- Title(参考訳): X-PCR : 眼科診断におけるクロスモーダルプログレッシブクリニカル推論のベンチマーク
- Authors: Gui Wang, Zehao Zhong, YongSong Zhou, Yudong Li, Ende Wu, Wooi Ping Cheah, Rong Qu, Jianfeng Ren, Linlin Shen,
- Abstract要約: 完全眼科診断ワークフローによる多モード大言語モデル (MLLM) の総合的評価として, クロスモーダルプログレッシブ・クリニカル推論 (X-PCR) ベンチマークを導入する。
ベンチマークは26,415枚の画像と、51の公開データセットからキュレートされた専門家によるVQAペア177,868枚で構成され、52の眼科疾患をカバーしている。
21個のMLLMの評価は、進行的推論とクロスモーダルな統合において重要なギャップを露呈する。
- 参考スコア(独自算出の注目度): 44.51033719890023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in Multi-modal Large Language Models (MLLMs), their clinical reasoning capacity for multi-modal diagnosis remains largely unexamined. Current benchmarks, mostly single-modality data, can't evaluate progressive reasoning and cross-modal integration essential for clinical practice. We introduce the Cross-Modality Progressive Clinical Reasoning (X-PCR) benchmark, the first comprehensive evaluation of MLLMs through a complete ophthalmology diagnostic workflow, with two reasoning tasks: 1) a six-stage progressive reasoning chain spanning image quality assessment to clinical decision-making, and 2) a cross-modality reasoning task integrating six imaging modalities. The benchmark comprises 26,415 images and 177,868 expert-verified VQA pairs curated from 51 public datasets, covering 52 ophthalmic diseases. Evaluation of 21 MLLMs reveals critical gaps in progressive reasoning and cross-modal integration. Dataset and code: https://github.com/CVI-SZU/X-PCR.
- Abstract(参考訳): MLLM (Multi-modal Large Language Models) の著明な進歩にもかかわらず, マルチモーダル診断のための臨床推論能力はほとんど検討されていない。
最近のベンチマークは、主に単一モダリティのデータであり、進歩的推論と横断的統合が臨床実践に不可欠なものであると評価できない。
X-PCR(Cross-Modality Progressive Clinical Reasoning)ベンチマークを導入し,完全眼科診断ワークフローによるMLLMの総合的評価を行った。
1)画像品質評価を臨床意思決定に当てはめる6段階の進歩的推論連鎖、及び
2)6つの画像モダリティを統合した相互モダリティ推論タスク。
ベンチマークは26,415枚の画像と、51の公開データセットからキュレートされた専門家によるVQAペア177,868枚で構成され、52の眼科疾患をカバーしている。
21個のMLLMの評価は、進行的推論とクロスモーダルな統合において重要なギャップを露呈する。
データとコード:https://github.com/CVI-SZU/X-PCR
関連論文リスト
- Mind the Rarities: Can Rare Skin Diseases Be Reliably Diagnosed via Diagnostic Reasoning? [31.103598483020857]
大規模視覚言語モデル(LVLM)は皮膚学において強い性能を示す。
稀な疾患に対する診断的推論は ほとんど未発見のままです
このデータセットには26,030のマルチモーダル画像テキストペアと6,354の臨床的に困難な症例が含まれている。
LVLMをリードするベンチマーク22は、診断精度、鑑別診断、臨床推論に重大な欠陥を呈する。
論文 参考訳(メタデータ) (2026-03-19T02:25:36Z) - MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - CX-Mind: A Pioneering Multimodal Large Language Model for Interleaved Reasoning in Chest X-ray via Curriculum-Guided Reinforcement Learning [28.737391224748798]
胸部X線(CXR)課題に対するインターリーブ"思考答え"推論を実現するための最初の生成モデルであるCX-Mindを提案する。
CX-Mindはカリキュラム強化学習と検証プロセス報酬(RL-VPR)によって駆動される
CX-Mindは、視覚的理解、テキスト生成、アライメントにおいて、既存の医用および一般ドメインMLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-31T05:07:18Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2289361708127877]
Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。
MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。
我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-09T15:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。