論文の概要: LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.01620v3
- Date: Sat, 19 Oct 2024 04:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:34:50.671550
- Title: LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models
- Title(参考訳): LMOD:大規模視線モデルのための大規模マルチモーダル眼科データセットとベンチマーク
- Authors: Zhenyue Qin, Yu Yin, Dylan Campbell, Xuansheng Wu, Ke Zou, Yih-Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen,
- Abstract要約: 大規模視覚言語モデル (LVLM) は複雑な視覚情報を理解することを約束している。
LMODには21,993枚の光学コヒーレンストモグラフィー、走査型レーザー眼鏡、眼写真、手術シーン、カラーファンドス写真が含まれる。
我々は、13の最先端のLVLMをベンチマークし、眼科画像の解釈には完璧ではないことを発見した。
- 参考スコア(独自算出の注目度): 38.78576472811659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ophthalmology relies heavily on detailed image analysis for diagnosis and treatment planning. While large vision-language models (LVLMs) have shown promise in understanding complex visual information, their performance on ophthalmology images remains underexplored. We introduce LMOD, a dataset and benchmark for evaluating LVLMs on ophthalmology images, covering anatomical understanding, diagnostic analysis, and demographic extraction. LMODincludes 21,993 images spanning optical coherence tomography, scanning laser ophthalmoscopy, eye photos, surgical scenes, and color fundus photographs. We benchmark 13 state-of-the-art LVLMs and find that they are far from perfect for comprehending ophthalmology images. Models struggle with diagnostic analysis and demographic extraction, reveal weaknesses in spatial reasoning, diagnostic analysis, handling out-of-domain queries, and safeguards for handling biomarkers of ophthalmology images.
- Abstract(参考訳): 眼科は診断と治療計画のための詳細な画像解析に大きく依存している。
大きな視覚言語モデル(LVLM)は複雑な視覚情報を理解することを約束しているが、眼科画像におけるそれらの性能はいまだ探索されていない。
本稿では,眼科画像のLVLMを評価するためのデータセットとベンチマークであるLMODを紹介し,解剖学的理解,診断分析,人口統計学的抽出について紹介する。
LMODinは21,993枚の光学コヒーレンストモグラフィー、走査型レーザー眼科鏡、眼写真、手術シーン、カラーファンドス写真を含む。
我々は、13の最先端のLVLMをベンチマークし、眼科画像の解釈には完璧ではないことを発見した。
モデルは、診断分析と人口統計抽出に苦慮し、空間的推論の弱点、診断分析、領域外クエリの処理、眼科画像のバイオマーカーを扱うための安全ガードを明らかにする。
関連論文リスト
- EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis [20.318178211934985]
本研究では,277万点以上の眼科画像と部分テキストデータを用いた視覚言語基盤モデルであるEyeCLIPを提案する。
EyeCLIPは、眼疾患や全身疾患を含む幅広い下流のタスクに移行することができる。
論文 参考訳(メタデータ) (2024-09-10T17:00:19Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Ophtha-LLaMA2: A Large Language Model for Ophthalmology [31.39653268440651]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きな成功を収めた。
本研究は,眼科疾患の診断に適したLLM「Ophtha-LLaMA2」を構築した。
推測試験の結果,Ophtha-LLaMA2は細調整データセットが小さい場合でも,眼科診断において有意に良好な成績を示した。
論文 参考訳(メタデータ) (2023-12-08T08:43:46Z) - VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for
Generalist Ophthalmic Artificial Intelligence [27.92420837559191]
VisionFMは560,457人の眼科画像340万枚を事前訓練した基礎モデルである。
事前トレーニングの後、VisionFMは複数の眼科人工知能(AI)応用を育成する基盤を提供する。
VisionFMの一般知能は、12の一般的な眼科疾患を共同診断する際に、基礎的および中間的なレベルの眼科医より優れていた。
論文 参考訳(メタデータ) (2023-10-08T03:40:14Z) - OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant
based on Instructions and Dialogue [7.140551103766788]
我々は、眼科大言語と視覚アシスタント(OphGLM)を完成させるために、大きな言語モデルに視覚能力を導入する。
実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T11:09:48Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - DRAC: Diabetic Retinopathy Analysis Challenge with Ultra-Wide Optical
Coherence Tomography Angiography Images [51.27125547308154]
第25回医用画像コンピューティング・コンピュータ支援介入国際会議(MICCAI 2022)にともなうDRAC糖尿病網膜症解析チャレンジの企画を行った。
この課題は、DR病変の分節化、画像品質評価、DRグレーディングの3つのタスクから構成される。
本稿では,課題の各課題について,トップパフォーマンスのソリューションと結果の要約と分析を行う。
論文 参考訳(メタデータ) (2023-04-05T12:04:55Z) - Efficient Screening of Diseased Eyes based on Fundus Autofluorescence
Images using Support Vector Machine [0.12189422792863448]
さまざまな視力障害は、目の焦点領域の地理的縮縮(GA)と関連している。
現在の臨床では、眼科医は、眼底蛍光(FAF)画像に基づいて、このようなGAの存在を手動で検出する。
健康眼と病眼をアルゴリズムで識別し,眼科医のみからの入力を限定したスクリーニングステップを提案する。
論文 参考訳(メタデータ) (2021-04-17T11:54:34Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z) - Modeling and Enhancing Low-quality Retinal Fundus Images [167.02325845822276]
低画質の眼底画像は臨床観察における不確実性を高め、誤診のリスクを引き起こす。
本稿では,グローバルな劣化要因を抑えるために,臨床指向の基盤拡張ネットワーク(cofe-Net)を提案する。
合成画像と実画像の両方の実験により、我々のアルゴリズムは網膜の細部を失うことなく、低品質の眼底画像を効果的に補正することを示した。
論文 参考訳(メタデータ) (2020-05-12T08:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。