論文の概要: LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.01620v4
- Date: Sat, 19 Oct 2024 04:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:34:50.668018
- Title: LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models
- Title(参考訳): LMOD:大規模視線モデルのための大規模マルチモーダル眼科データセットとベンチマーク
- Authors: Zhenyue Qin, Yu Yin, Dylan Campbell, Xuansheng Wu, Ke Zou, Yih-Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。
我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。
その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
- 参考スコア(独自算出の注目度): 38.78576472811659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalence of vision-threatening eye diseases is a significant global burden, with many cases remaining undiagnosed or diagnosed too late for effective treatment. Large vision-language models (LVLMs) have the potential to assist in understanding anatomical information, diagnosing eye diseases, and drafting interpretations and follow-up plans, thereby reducing the burden on clinicians and improving access to eye care. However, limited benchmarks are available to assess LVLMs' performance in ophthalmology-specific applications. In this study, we introduce LMOD, a large-scale multimodal ophthalmology benchmark consisting of 21,993 instances across (1) five ophthalmic imaging modalities: optical coherence tomography, color fundus photographs, scanning laser ophthalmoscopy, lens photographs, and surgical scenes; (2) free-text, demographic, and disease biomarker information; and (3) primary ophthalmology-specific applications such as anatomical information understanding, disease diagnosis, and subgroup analysis. In addition, we benchmarked 13 state-of-the-art LVLM representatives from closed-source, open-source, and medical domains. The results demonstrate a significant performance drop for LVLMs in ophthalmology compared to other domains. Systematic error analysis further identified six major failure modes: misclassification, failure to abstain, inconsistent reasoning, hallucination, assertions without justification, and lack of domain-specific knowledge. In contrast, supervised neural networks specifically trained on these tasks as baselines demonstrated high accuracy. These findings underscore the pressing need for benchmarks in the development and validation of ophthalmology-specific LVLMs.
- Abstract(参考訳): 視力低下による眼疾患の流行は、治療に時間がかかりすぎ、未診断または診断が遅れているケースが多いため、世界的な重荷となっている。
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の起草を支援する可能性があり、臨床医の負担を軽減し、アイケアへのアクセスを改善する。
しかし、眼科固有の応用において、LVLMの性能を評価するための限られたベンチマークが利用可能である。
本研究では,(1)光コヒーレンス断層撮影,カラー眼底撮影,走査レーザー眼鏡,レンズ写真,手術シーン,(2)自由テキスト,人口統計,疾患バイオマーカー情報,(3)解剖学的情報理解,疾患診断,サブグループ分析の5つの眼科画像モダリティから成る21,993例からなる大規模マルチモーダル眼科ベンチマークLMODを紹介する。
さらに、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。
その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
体系的誤り分析はさらに、誤分類、棄却の失敗、一貫性のない推論、幻覚、正当化のない主張、ドメイン固有の知識の欠如の6つの主要な障害モードを特定した。
対照的に、ベースラインとしてこれらのタスクを特別に訓練した教師付きニューラルネットワークは、高い精度を示した。
これらの結果から,眼科用LVLMの開発・検証におけるベンチマークの必要性が示唆された。
関連論文リスト
- EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis [20.318178211934985]
本研究では,277万点以上の眼科画像と部分テキストデータを用いた視覚言語基盤モデルであるEyeCLIPを提案する。
EyeCLIPは、眼疾患や全身疾患を含む幅広い下流のタスクに移行することができる。
論文 参考訳(メタデータ) (2024-09-10T17:00:19Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Ophtha-LLaMA2: A Large Language Model for Ophthalmology [31.39653268440651]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きな成功を収めた。
本研究は,眼科疾患の診断に適したLLM「Ophtha-LLaMA2」を構築した。
推測試験の結果,Ophtha-LLaMA2は細調整データセットが小さい場合でも,眼科診断において有意に良好な成績を示した。
論文 参考訳(メタデータ) (2023-12-08T08:43:46Z) - VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for
Generalist Ophthalmic Artificial Intelligence [27.92420837559191]
VisionFMは560,457人の眼科画像340万枚を事前訓練した基礎モデルである。
事前トレーニングの後、VisionFMは複数の眼科人工知能(AI)応用を育成する基盤を提供する。
VisionFMの一般知能は、12の一般的な眼科疾患を共同診断する際に、基礎的および中間的なレベルの眼科医より優れていた。
論文 参考訳(メタデータ) (2023-10-08T03:40:14Z) - OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant
based on Instructions and Dialogue [7.140551103766788]
我々は、眼科大言語と視覚アシスタント(OphGLM)を完成させるために、大きな言語モデルに視覚能力を導入する。
実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T11:09:48Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - DRAC: Diabetic Retinopathy Analysis Challenge with Ultra-Wide Optical
Coherence Tomography Angiography Images [51.27125547308154]
第25回医用画像コンピューティング・コンピュータ支援介入国際会議(MICCAI 2022)にともなうDRAC糖尿病網膜症解析チャレンジの企画を行った。
この課題は、DR病変の分節化、画像品質評価、DRグレーディングの3つのタスクから構成される。
本稿では,課題の各課題について,トップパフォーマンスのソリューションと結果の要約と分析を行う。
論文 参考訳(メタデータ) (2023-04-05T12:04:55Z) - Efficient Screening of Diseased Eyes based on Fundus Autofluorescence
Images using Support Vector Machine [0.12189422792863448]
さまざまな視力障害は、目の焦点領域の地理的縮縮(GA)と関連している。
現在の臨床では、眼科医は、眼底蛍光(FAF)画像に基づいて、このようなGAの存在を手動で検出する。
健康眼と病眼をアルゴリズムで識別し,眼科医のみからの入力を限定したスクリーニングステップを提案する。
論文 参考訳(メタデータ) (2021-04-17T11:54:34Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z) - Modeling and Enhancing Low-quality Retinal Fundus Images [167.02325845822276]
低画質の眼底画像は臨床観察における不確実性を高め、誤診のリスクを引き起こす。
本稿では,グローバルな劣化要因を抑えるために,臨床指向の基盤拡張ネットワーク(cofe-Net)を提案する。
合成画像と実画像の両方の実験により、我々のアルゴリズムは網膜の細部を失うことなく、低品質の眼底画像を効果的に補正することを示した。
論文 参考訳(メタデータ) (2020-05-12T08:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。