論文の概要: LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology
- arxiv url: http://arxiv.org/abs/2509.25620v1
- Date: Tue, 30 Sep 2025 00:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.968314
- Title: LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology
- Title(参考訳): LMOD+:眼科におけるマルチモーダル大言語モデルの開発と評価のための総合的マルチモーダルデータセットとベンチマーク
- Authors: Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih-Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen,
- Abstract要約: 視力低下の眼疾患は、労働力不足によるタイムリーな診断と専門医療へのアクセス制限により、世界的な健康上の重荷となる。
本報告では,12の眼球運動条件に共通する多粒性アノテーションと5つの画像モダリティを併用した32,633例の大規模マルチモーダル眼科ベンチマークを報告する。
このデータセットは、画像、解剖学的構造、人口統計、自由テキストアノテーションを統合し、解剖学的構造認識、疾患スクリーニング、疾患ステージング、およびバイアス評価のための人口統計予測をサポートする。
- 参考スコア(独自算出の注目度): 43.092364533480456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-threatening eye diseases pose a major global health burden, with timely diagnosis limited by workforce shortages and restricted access to specialized care. While multimodal large language models (MLLMs) show promise for medical image interpretation, advancing MLLMs for ophthalmology is hindered by the lack of comprehensive benchmark datasets suitable for evaluating generative models. We present a large-scale multimodal ophthalmology benchmark comprising 32,633 instances with multi-granular annotations across 12 common ophthalmic conditions and 5 imaging modalities. The dataset integrates imaging, anatomical structures, demographics, and free-text annotations, supporting anatomical structure recognition, disease screening, disease staging, and demographic prediction for bias evaluation. This work extends our preliminary LMOD benchmark with three major enhancements: (1) nearly 50% dataset expansion with substantial enlargement of color fundus photography; (2) broadened task coverage including binary disease diagnosis, multi-class diagnosis, severity classification with international grading standards, and demographic prediction; and (3) systematic evaluation of 24 state-of-the-art MLLMs. Our evaluations reveal both promise and limitations. Top-performing models achieved ~58% accuracy in disease screening under zero-shot settings, and performance remained suboptimal for challenging tasks like disease staging. We will publicly release the dataset, curation pipeline, and leaderboard to potentially advance ophthalmic AI applications and reduce the global burden of vision-threatening diseases.
- Abstract(参考訳): 視力低下の眼疾患は、労働力不足によるタイムリーな診断や専門医療へのアクセス制限など、世界的な健康上の重荷となる。
マルチモーダル大言語モデル(MLLM)は医用画像解釈を約束するが、眼科におけるMLLMの進歩は、生成モデルを評価するのに適した包括的なベンチマークデータセットの欠如によって妨げられる。
本報告では,12の眼球運動条件に共通する多粒性アノテーションと5つの画像モダリティを併用した32,633例の大規模マルチモーダル眼科ベンチマークを報告する。
このデータセットは、画像、解剖学的構造、人口統計、自由テキストアノテーションを統合し、解剖学的構造認識、疾患スクリーニング、疾患ステージング、およびバイアス評価のための人口統計予測をサポートする。
本研究は,(1)カラーファンドス撮影の大幅な拡大を伴う50%近いデータセット拡張,(2)バイナリ疾患診断,多クラス診断,国際グレーディング標準による重症度分類,および人口統計予測を含むタスクカバレッジの拡大,(3)最先端MLLM24の体系的評価,の3つの主要な拡張とともに,LMODベンチマークを拡張した。
私たちの評価は約束と限界の両方を明らかにします。
トップパフォーマンスモデルはゼロショット設定で疾患スクリーニングにおいて約58%の精度を達成した。
私たちはこのデータセット、キュレーションパイプライン、およびリーダーボードを公開し、眼科のAI応用を前進させ、視覚障害の世界的な負担を軽減します。
関連論文リスト
- DermINO: Hybrid Pretraining for a Versatile Dermatology Foundation Model [92.66916452260553]
DermNIOは皮膚科学の多目的基盤モデルである。
自己教師型学習パラダイムを増強する、新しいハイブリッド事前学習フレームワークが組み込まれている。
さまざまなタスクにおいて、最先端のモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-17T00:41:39Z) - A Survey of Multimodal Ophthalmic Diagnostics: From Task-Specific Approaches to Foundational Models [28.34025112894094]
このレビューでは、タスク固有のマルチモーダルアプローチと大規模マルチモーダル基盤モデルという2つの主要なカテゴリに焦点を当てている。
この調査は重要なデータセット、評価指標、方法論の革新について批判的に調査している。
また、データの多様性、アノテーションの制限、解釈可能性の欠如、様々な患者集団における一般化可能性の問題など、現在進行中の課題についても論じている。
論文 参考訳(メタデータ) (2025-07-31T10:49:21Z) - EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model [51.66031028717933]
Med-LVLM(Med-LVLM)は、医療において重要な可能性を示す。
現在、知的眼科診断は、(i)データ、(ii)ベンチマーク、(iii)モデルという3つの大きな課題に直面している。
我々は、前述の3つの課題に対処するEyecare Kitを提案する。
論文 参考訳(メタデータ) (2025-04-18T12:09:15Z) - A Novel Ophthalmic Benchmark for Evaluating Multimodal Large Language Models with Fundus Photographs and OCT Images [11.761590928900358]
眼科領域では,光学コヒーレンス・トモグラフィー(OCT)の報告を解析するために,大言語モデル(MLLM)が研究されている。
データセットは439基の画像と75基のOCT画像からなる。
標準化されたAPIベースのフレームワークを用いて、7つの主流MLLMを評価し、異なる疾患の診断精度に有意なばらつきが認められた。
論文 参考訳(メタデータ) (2025-03-10T09:19:55Z) - LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。
我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。
その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文 参考訳(メタデータ) (2024-10-02T14:57:58Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。