論文の概要: EyePCR: A Comprehensive Benchmark for Fine-Grained Perception, Knowledge Comprehension and Clinical Reasoning in Ophthalmic Surgery
- arxiv url: http://arxiv.org/abs/2509.15596v2
- Date: Thu, 02 Oct 2025 12:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.081147
- Title: EyePCR: A Comprehensive Benchmark for Fine-Grained Perception, Knowledge Comprehension and Clinical Reasoning in Ophthalmic Surgery
- Title(参考訳): EyePCR:眼科手術における細粒度知覚, 知識理解, 臨床反応の総合的ベンチマーク
- Authors: Gui Wang, Yang Wennuo, Xusen Ma, Zehao Zhong, Zhuoru Wu, Ende Wu, Rong Qu, Wooi Ping Cheah, Jianfeng Ren, Linlin Shen,
- Abstract要約: 我々は,眼科手術解析のための大規模ベンチマークであるtextbfEyePCR を開発した。
EyePCRは210k以上のVQAを持つリッチな注釈付きコーパスを提供する。
リッチアノテーションは深い認知分析を促進し、外科医が視覚的手がかりをどう知覚するかをシミュレートし、それらをドメイン知識と組み合わせて意思決定する。
- 参考スコア(独自算出の注目度): 42.23133882924834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MLLMs (Multimodal Large Language Models) have showcased remarkable capabilities, but their performance in high-stakes, domain-specific scenarios like surgical settings, remains largely under-explored. To address this gap, we develop \textbf{EyePCR}, a large-scale benchmark for ophthalmic surgery analysis, grounded in structured clinical knowledge to evaluate cognition across \textit{Perception}, \textit{Comprehension} and \textit{Reasoning}. EyePCR offers a richly annotated corpus with more than 210k VQAs, which cover 1048 fine-grained attributes for multi-view perception, medical knowledge graph of more than 25k triplets for comprehension, and four clinically grounded reasoning tasks. The rich annotations facilitate in-depth cognitive analysis, simulating how surgeons perceive visual cues and combine them with domain knowledge to make decisions, thus greatly improving models' cognitive ability. In particular, \textbf{EyePCR-MLLM}, a domain-adapted variant of Qwen2.5-VL-7B, achieves the highest accuracy on MCQs for \textit{Perception} among compared models and outperforms open-source models in \textit{Comprehension} and \textit{Reasoning}, rivalling commercial models like GPT-4.1. EyePCR reveals the limitations of existing MLLMs in surgical cognition and lays the foundation for benchmarking and enhancing clinical reliability of surgical video understanding models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は目覚ましい能力を示してきたが、外科的設定のような高度なドメイン固有のシナリオでの性能はいまだに未探索のままである。
このギャップに対処するため, 眼科手術解析のための大規模ベンチマークである \textbf{EyePCR} を開発し, 構造化された臨床知識を基盤として, \textit{Perception} , \textit{Comprehension} および \textit{Reasoning} の認知を評価する。
EyePCRは210k以上のVQAを持つリッチな注釈付きコーパスを提供しており、マルチビュー知覚のための1048のきめ細かい属性、理解のための25k以上の三重項の医療知識グラフ、臨床に根ざした4つの推論タスクをカバーしている。
リッチアノテーションは深い認知分析を促進し、外科医が視覚的手がかりをどう知覚するかをシミュレートし、それをドメイン知識と組み合わせて意思決定し、モデルの認知能力を大幅に向上させる。
特に、Qwen2.5-VL-7B のドメイン適応型である \textbf{EyePCR-MLLM} は、比較モデルの中で MCQ において最高精度を達成し、GPT-4.1 のような商用モデルと競合する \textit{Comprehension} と \textit{Reasoning} のオープンソースモデルより優れている。
EyePCRは、外科的認知における既存のMLLMの限界を明らかにし、外科的ビデオ理解モデルの信頼性をベンチマークし、向上するための基盤となる。
関連論文リスト
- Constructing Ophthalmic MLLM for Positioning-diagnosis Collaboration Through Clinical Cognitive Chain Reasoning [0.5360375691077625]
FundusExpertは眼科固有のMLLMであり、位置決め-診断推論機能を備えている。
FundusGenはインテリジェントなFundus-Engineシステムを通じて構築されたデータセットである。
論文 参考訳(メタデータ) (2025-07-23T14:19:30Z) - Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening [37.69303106863453]
大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。
本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。
300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
論文 参考訳(メタデータ) (2025-07-02T01:35:59Z) - How Good is my Histopathology Vision-Language Foundation Model? A Holistic Benchmark [21.47220651857942]
組織学的視覚言語基礎モデル(VLM)は、下流の様々なタスクにまたがる性能と一般化性の向上により人気を博している。
既存の病理組織学のベンチマークのほとんどは、患者のデータプライバシーによる部分的な可用性だけでなく、臨床、臓器、取得機器の多様性の観点からも、一過性のものであるか制限されている。
HistoVLは、クラス名と多様な病理学的記述を組み込んだ、最大11種類の取得ツールとキャプションを用いて取得した画像からなる、完全にオープンソースな総合ベンチマークである。
論文 参考訳(メタデータ) (2025-03-17T09:45:22Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Beyond the Hype: A dispassionate look at vision-language models in medical scenario [3.4299097748670255]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な能力を示す。
医学などの専門分野における性能や信頼性は依然として十分に評価されていない。
本稿では,既存のLVLMを包括的に評価する新しいベンチマークであるRadVUQAを紹介する。
論文 参考訳(メタデータ) (2024-08-16T12:32:44Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision [17.875098424936542]
広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。
各種ソースから38個のオープンアクセスデータセットを収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
論文 参考訳(メタデータ) (2023-08-15T17:39:52Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。