論文の概要: LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.01620v4
- Date: Sat, 19 Oct 2024 04:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:11.272133
- Title: LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models
- Title(参考訳): LMOD:大規模視線モデルのための大規模マルチモーダル眼科データセットとベンチマーク
- Authors: Zhenyue Qin, Yu Yin, Dylan Campbell, Xuansheng Wu, Ke Zou, Yih-Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。
我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。
その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
- 参考スコア(独自算出の注目度): 38.78576472811659
- License:
- Abstract: The prevalence of vision-threatening eye diseases is a significant global burden, with many cases remaining undiagnosed or diagnosed too late for effective treatment. Large vision-language models (LVLMs) have the potential to assist in understanding anatomical information, diagnosing eye diseases, and drafting interpretations and follow-up plans, thereby reducing the burden on clinicians and improving access to eye care. However, limited benchmarks are available to assess LVLMs' performance in ophthalmology-specific applications. In this study, we introduce LMOD, a large-scale multimodal ophthalmology benchmark consisting of 21,993 instances across (1) five ophthalmic imaging modalities: optical coherence tomography, color fundus photographs, scanning laser ophthalmoscopy, lens photographs, and surgical scenes; (2) free-text, demographic, and disease biomarker information; and (3) primary ophthalmology-specific applications such as anatomical information understanding, disease diagnosis, and subgroup analysis. In addition, we benchmarked 13 state-of-the-art LVLM representatives from closed-source, open-source, and medical domains. The results demonstrate a significant performance drop for LVLMs in ophthalmology compared to other domains. Systematic error analysis further identified six major failure modes: misclassification, failure to abstain, inconsistent reasoning, hallucination, assertions without justification, and lack of domain-specific knowledge. In contrast, supervised neural networks specifically trained on these tasks as baselines demonstrated high accuracy. These findings underscore the pressing need for benchmarks in the development and validation of ophthalmology-specific LVLMs.
- Abstract(参考訳): 視力低下による眼疾患の流行は、治療に時間がかかりすぎ、未診断または診断が遅れているケースが多いため、世界的な重荷となっている。
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の起草を支援する可能性があり、臨床医の負担を軽減し、アイケアへのアクセスを改善する。
しかし、眼科固有の応用において、LVLMの性能を評価するための限られたベンチマークが利用可能である。
本研究では,(1)光コヒーレンス断層撮影,カラー眼底撮影,走査レーザー眼鏡,レンズ写真,手術シーン,(2)自由テキスト,人口統計,疾患バイオマーカー情報,(3)解剖学的情報理解,疾患診断,サブグループ分析の5つの眼科画像モダリティから成る21,993例からなる大規模マルチモーダル眼科ベンチマークLMODを紹介する。
さらに、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。
その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
体系的誤り分析はさらに、誤分類、棄却の失敗、一貫性のない推論、幻覚、正当化のない主張、ドメイン固有の知識の欠如の6つの主要な障害モードを特定した。
対照的に、ベースラインとしてこれらのタスクを特別に訓練した教師付きニューラルネットワークは、高い精度を示した。
これらの結果から,眼科用LVLMの開発・検証におけるベンチマークの必要性が示唆された。
関連論文リスト
- Enhancing Diagnosis through AI-driven Analysis of Reflectance Confocal Microscopy [36.639983997402275]
反射共焦点顕微鏡(英: Reflectance Confocal Microscopy、RCM)は、生体医学研究や臨床皮膚学で用いられる非侵襲的イメージング技術である。
RCMはレーザー光源を用いて組織を照明し、反射した光を捉え、様々な深さの顕微鏡構造の詳細画像を生成する。
近年の研究では、RCM画像の解析のためのAIと機械学習、特にCNNについて研究されている。
論文 参考訳(メタデータ) (2024-04-24T13:23:03Z) - SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models [52.90397538472582]
SkinGENは、VLMが提供する診断結果から参照デモを生成する、診断から生成までのフレームワークである。
システム性能と説明可能性の両方を評価するために,32人の参加者によるユーザスタディを実施している。
その結果、SkinGENはVLM予測に対するユーザの理解を著しく改善し、診断プロセスへの信頼を高めることが示されている。
論文 参考訳(メタデータ) (2024-04-23T05:36:33Z) - When Eye-Tracking Meets Machine Learning: A Systematic Review on
Applications in Medical Image Analysis [2.9122893700072554]
目の動きを監視し記録する技術であるアイトラッキングは、人間の視覚的注意パターンに関する貴重な洞察を提供する。
複雑な人間の視覚的注意パターンが埋め込まれた視線追跡データは、人工知能(AI)開発と人間の認知を統合するための橋渡しを提供する。
本稿では,医療画像解析のためのML/DLアルゴリズムの深度化のための視線追跡と手法について検討する。
論文 参考訳(メタデータ) (2024-03-12T17:17:20Z) - On Large Visual Language Models for Medical Imaging Analysis: An
Empirical Study [13.972931873011914]
大規模言語モデル(LLM)は自然言語処理において注目されている。
LLaVA、Flamingo、CLIPといったビジュアル言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T23:01:38Z) - VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for
Generalist Ophthalmic Artificial Intelligence [27.92420837559191]
VisionFMは560,457人の眼科画像340万枚を事前訓練した基礎モデルである。
事前トレーニングの後、VisionFMは複数の眼科人工知能(AI)応用を育成する基盤を提供する。
VisionFMの一般知能は、12の一般的な眼科疾患を共同診断する際に、基礎的および中間的なレベルの眼科医より優れていた。
論文 参考訳(メタデータ) (2023-10-08T03:40:14Z) - OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant
based on Instructions and Dialogue [7.140551103766788]
我々は、眼科大言語と視覚アシスタント(OphGLM)を完成させるために、大きな言語モデルに視覚能力を導入する。
実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T11:09:48Z) - Pixel-Level Explanation of Multiple Instance Learning Models in
Biomedical Single Cell Images [52.527733226555206]
複数のインスタンス学習モデルを説明するための4つの属性法について検討する。
急性骨髄性白血病の2つのデータセットと100万以上の単細胞画像について検討した。
我々は、属性マップと医療専門家の注釈を比較し、モデルの意思決定が人間の基準とどのように異なるかを確認する。
論文 参考訳(メタデータ) (2023-03-15T14:00:11Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z) - Spectral-Spatial Recurrent-Convolutional Networks for In-Vivo
Hyperspectral Tumor Type Classification [49.32653090178743]
ハイパースペクトル画像とディープラーニングを用いたin-vivo腫瘍型分類の可能性を示した。
我々の最良のモデルは76.3%のAUCを達成し、従来の学習手法とディープラーニング手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-02T12:00:53Z) - Modeling and Enhancing Low-quality Retinal Fundus Images [167.02325845822276]
低画質の眼底画像は臨床観察における不確実性を高め、誤診のリスクを引き起こす。
本稿では,グローバルな劣化要因を抑えるために,臨床指向の基盤拡張ネットワーク(cofe-Net)を提案する。
合成画像と実画像の両方の実験により、我々のアルゴリズムは網膜の細部を失うことなく、低品質の眼底画像を効果的に補正することを示した。
論文 参考訳(メタデータ) (2020-05-12T08:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。