論文の概要: LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.01620v1
- Date: Wed, 02 Oct 2024 14:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:22:16.383772
- Title: LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models
- Title(参考訳): LMOD:大規模視線モデルのための大規模マルチモーダル眼科データセットとベンチマーク
- Authors: Zhenyue Qin, Yu Yin, Dylan Campbell, Xuansheng Wu, Ke Zou, Yih-Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen,
- Abstract要約: 大規模視覚言語モデル (LVLM) は複雑な視覚情報を理解することを約束している。
LMODには21,993枚の光学コヒーレンストモグラフィー、走査型レーザー眼鏡、眼写真、手術シーン、カラーファンドス写真が含まれる。
我々は、13の最先端のLVLMをベンチマークし、眼科画像の解釈には完璧ではないことを発見した。
- 参考スコア(独自算出の注目度): 38.78576472811659
- License:
- Abstract: Ophthalmology relies heavily on detailed image analysis for diagnosis and treatment planning. While large vision-language models (LVLMs) have shown promise in understanding complex visual information, their performance on ophthalmology images remains underexplored. We introduce LMOD, a dataset and benchmark for evaluating LVLMs on ophthalmology images, covering anatomical understanding, diagnostic analysis, and demographic extraction. LMODincludes 21,993 images spanning optical coherence tomography, scanning laser ophthalmoscopy, eye photos, surgical scenes, and color fundus photographs. We benchmark 13 state-of-the-art LVLMs and find that they are far from perfect for comprehending ophthalmology images. Models struggle with diagnostic analysis and demographic extraction, reveal weaknesses in spatial reasoning, diagnostic analysis, handling out-of-domain queries, and safeguards for handling biomarkers of ophthalmology images.
- Abstract(参考訳): 眼科は診断と治療計画のための詳細な画像解析に大きく依存している。
大きな視覚言語モデル(LVLM)は複雑な視覚情報を理解することを約束しているが、眼科画像におけるそれらの性能はいまだ探索されていない。
本稿では,眼科画像のLVLMを評価するためのデータセットとベンチマークであるLMODを紹介し,解剖学的理解,診断分析,人口統計学的抽出について紹介する。
LMODinは21,993枚の光学コヒーレンストモグラフィー、走査型レーザー眼科鏡、眼写真、手術シーン、カラーファンドス写真を含む。
我々は、13の最先端のLVLMをベンチマークし、眼科画像の解釈には完璧ではないことを発見した。
モデルは、診断分析と人口統計抽出に苦慮し、空間的推論の弱点、診断分析、領域外クエリの処理、眼科画像のバイオマーカーを扱うための安全ガードを明らかにする。
関連論文リスト
- Enhancing Diagnosis through AI-driven Analysis of Reflectance Confocal Microscopy [36.639983997402275]
反射共焦点顕微鏡(英: Reflectance Confocal Microscopy、RCM)は、生体医学研究や臨床皮膚学で用いられる非侵襲的イメージング技術である。
RCMはレーザー光源を用いて組織を照明し、反射した光を捉え、様々な深さの顕微鏡構造の詳細画像を生成する。
近年の研究では、RCM画像の解析のためのAIと機械学習、特にCNNについて研究されている。
論文 参考訳(メタデータ) (2024-04-24T13:23:03Z) - SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models [52.90397538472582]
SkinGENは、VLMが提供する診断結果から参照デモを生成する、診断から生成までのフレームワークである。
システム性能と説明可能性の両方を評価するために,32人の参加者によるユーザスタディを実施している。
その結果、SkinGENはVLM予測に対するユーザの理解を著しく改善し、診断プロセスへの信頼を高めることが示されている。
論文 参考訳(メタデータ) (2024-04-23T05:36:33Z) - When Eye-Tracking Meets Machine Learning: A Systematic Review on
Applications in Medical Image Analysis [2.9122893700072554]
目の動きを監視し記録する技術であるアイトラッキングは、人間の視覚的注意パターンに関する貴重な洞察を提供する。
複雑な人間の視覚的注意パターンが埋め込まれた視線追跡データは、人工知能(AI)開発と人間の認知を統合するための橋渡しを提供する。
本稿では,医療画像解析のためのML/DLアルゴリズムの深度化のための視線追跡と手法について検討する。
論文 参考訳(メタデータ) (2024-03-12T17:17:20Z) - On Large Visual Language Models for Medical Imaging Analysis: An
Empirical Study [13.972931873011914]
大規模言語モデル(LLM)は自然言語処理において注目されている。
LLaVA、Flamingo、CLIPといったビジュアル言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T23:01:38Z) - VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for
Generalist Ophthalmic Artificial Intelligence [27.92420837559191]
VisionFMは560,457人の眼科画像340万枚を事前訓練した基礎モデルである。
事前トレーニングの後、VisionFMは複数の眼科人工知能(AI)応用を育成する基盤を提供する。
VisionFMの一般知能は、12の一般的な眼科疾患を共同診断する際に、基礎的および中間的なレベルの眼科医より優れていた。
論文 参考訳(メタデータ) (2023-10-08T03:40:14Z) - OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant
based on Instructions and Dialogue [7.140551103766788]
我々は、眼科大言語と視覚アシスタント(OphGLM)を完成させるために、大きな言語モデルに視覚能力を導入する。
実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T11:09:48Z) - Pixel-Level Explanation of Multiple Instance Learning Models in
Biomedical Single Cell Images [52.527733226555206]
複数のインスタンス学習モデルを説明するための4つの属性法について検討する。
急性骨髄性白血病の2つのデータセットと100万以上の単細胞画像について検討した。
我々は、属性マップと医療専門家の注釈を比較し、モデルの意思決定が人間の基準とどのように異なるかを確認する。
論文 参考訳(メタデータ) (2023-03-15T14:00:11Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z) - Spectral-Spatial Recurrent-Convolutional Networks for In-Vivo
Hyperspectral Tumor Type Classification [49.32653090178743]
ハイパースペクトル画像とディープラーニングを用いたin-vivo腫瘍型分類の可能性を示した。
我々の最良のモデルは76.3%のAUCを達成し、従来の学習手法とディープラーニング手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-02T12:00:53Z) - Modeling and Enhancing Low-quality Retinal Fundus Images [167.02325845822276]
低画質の眼底画像は臨床観察における不確実性を高め、誤診のリスクを引き起こす。
本稿では,グローバルな劣化要因を抑えるために,臨床指向の基盤拡張ネットワーク(cofe-Net)を提案する。
合成画像と実画像の両方の実験により、我々のアルゴリズムは網膜の細部を失うことなく、低品質の眼底画像を効果的に補正することを示した。
論文 参考訳(メタデータ) (2020-05-12T08:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。