論文の概要: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis
- arxiv url: http://arxiv.org/abs/2505.23601v1
- Date: Thu, 29 May 2025 16:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.974653
- Title: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis
- Title(参考訳): 内視鏡解析のための多モード大言語モデルの包括的評価
- Authors: Shengyuan Liu, Boyun Zheng, Wenting Chen, Zhihao Peng, Zhenfei Yin, Jing Shao, Jiancong Hu, Yixuan Yuan,
- Abstract要約: EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
- 参考スコア(独自算出の注目度): 37.59267835101216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Endoscopic procedures are essential for diagnosing and treating internal diseases, and multi-modal large language models (MLLMs) are increasingly applied to assist in endoscopy analysis. However, current benchmarks are limited, as they typically cover specific endoscopic scenarios and a small set of clinical tasks, failing to capture the real-world diversity of endoscopic scenarios and the full range of skills needed in clinical workflows. To address these issues, we introduce EndoBench, the first comprehensive benchmark specifically designed to assess MLLMs across the full spectrum of endoscopic practice with multi-dimensional capacities. EndoBench encompasses 4 distinct endoscopic scenarios, 12 specialized clinical tasks with 12 secondary subtasks, and 5 levels of visual prompting granularities, resulting in 6,832 rigorously validated VQA pairs from 21 diverse datasets. Our multi-dimensional evaluation framework mirrors the clinical workflow--spanning anatomical recognition, lesion analysis, spatial localization, and surgical operations--to holistically gauge the perceptual and diagnostic abilities of MLLMs in realistic scenarios. We benchmark 23 state-of-the-art models, including general-purpose, medical-specialized, and proprietary MLLMs, and establish human clinician performance as a reference standard. Our extensive experiments reveal: (1) proprietary MLLMs outperform open-source and medical-specialized models overall, but still trail human experts; (2) medical-domain supervised fine-tuning substantially boosts task-specific accuracy; and (3) model performance remains sensitive to prompt format and clinical task complexity. EndoBench establishes a new standard for evaluating and advancing MLLMs in endoscopy, highlighting both progress and persistent gaps between current models and expert clinical reasoning. We publicly release our benchmark and code.
- Abstract(参考訳): 内科疾患の診断・治療には内視鏡的治療が不可欠であり,内視鏡検査の補助として多モード大言語モデル(MLLM)が適用されつつある。
しかし、現在のベンチマークは、通常は特定の内視鏡的シナリオと少数の臨床タスクをカバーしており、実際の内視鏡的シナリオの多様性と臨床ワークフローに必要なスキルの完全な範囲を捉えていないため、制限されている。
これらの問題に対処するために,多次元容量の内視鏡的練習の全スペクトルにわたるMLLMを評価するために設計された,初の総合的なベンチマークであるEndoBenchを紹介する。
EndoBenchは、4つの異なる内視鏡的シナリオ、12のセカンダリ・サブタスク、そして5レベルの視覚刺激的な粒度を含み、その結果、21種類のデータセットから6,832のVQAペアが厳密に検証された。
多次元評価フレームワークは, 解剖学的診断, 病変解析, 空間的局在化, 外科手術などの臨床ワークフローを反映し, 現実的なシナリオにおけるMLLMの知覚的, 診断的能力を評価する。
我々は、汎用、医療専門化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークし、基準基準としてヒト臨床成績を確立する。
1) MLLMはオープンソースモデルや医療特化モデルよりも優れているが,まだ人間専門家に追随している,(2) 医療ドメインを監督する微調整はタスク固有の精度を大幅に向上させる,(3) モデル性能は,フォーマットや臨床タスクの複雑さの促進に敏感なままである。
EndoBenchは、内視鏡におけるMLLMの評価と進歩のための新しい標準を確立し、現在のモデルと専門的な臨床推論の間の進歩と持続的なギャップを強調している。
ベンチマークとコードを公開しています。
関連論文リスト
- OphthBench: A Comprehensive Benchmark for Evaluating Large Language Models in Chinese Ophthalmology [7.743511021846898]
大規模言語モデル(LLM)は、様々な医学的応用において大きな可能性を示してきた。
我々は,中国の眼科領域におけるLCM性能を評価するためのベンチマークであるOphthBenchを紹介した。
この枠組みは、LSMの能力の徹底的な評価を可能にし、中国の眼科におけるその実践的応用に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-02-03T11:04:51Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。
このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。
臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文 参考訳(メタデータ) (2024-06-14T11:10:17Z) - Does Biomedical Training Lead to Better Medical Performance? [2.3814275542331385]
大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献することが期待されている。
本研究では, バイオメディカルトレーニングが6つの実践的医療課題の文脈に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-04-05T12:51:37Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。