Fugu-MT 論文翻訳(概要): LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

論文の概要: LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2410.01620v1
Date: Sat, 19 Oct 2024 04:02:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 16:34:50.678835
Title: LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models
Title（参考訳）: LMOD:大規模視線モデルのための大規模マルチモーダル眼科データセットとベンチマーク
Authors: Zhenyue Qin, Yu Yin, Dylan Campbell, Xuansheng Wu, Ke Zou, Yih-Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen,
Abstract要約: 大規模視覚言語モデル (LVLM) は複雑な視覚情報を理解することを約束している。 LMODには21,993枚の光学コヒーレンストモグラフィー、走査型レーザー眼鏡、眼写真、手術シーン、カラーファンドス写真が含まれる。我々は、13の最先端のLVLMをベンチマークし、眼科画像の解釈には完璧ではないことを発見した。
参考スコア（独自算出の注目度）: 38.78576472811659
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ophthalmology relies heavily on detailed image analysis for diagnosis and treatment planning. While large vision-language models (LVLMs) have shown promise in understanding complex visual information, their performance on ophthalmology images remains underexplored. We introduce LMOD, a dataset and benchmark for evaluating LVLMs on ophthalmology images, covering anatomical understanding, diagnostic analysis, and demographic extraction. LMODincludes 21,993 images spanning optical coherence tomography, scanning laser ophthalmoscopy, eye photos, surgical scenes, and color fundus photographs. We benchmark 13 state-of-the-art LVLMs and find that they are far from perfect for comprehending ophthalmology images. Models struggle with diagnostic analysis and demographic extraction, reveal weaknesses in spatial reasoning, diagnostic analysis, handling out-of-domain queries, and safeguards for handling biomarkers of ophthalmology images.
Abstract（参考訳）: 眼科は診断と治療計画のための詳細な画像解析に大きく依存している。大きな視覚言語モデル(LVLM)は複雑な視覚情報を理解することを約束しているが、眼科画像におけるそれらの性能はいまだ探索されていない。本稿では,眼科画像のLVLMを評価するためのデータセットとベンチマークであるLMODを紹介し,解剖学的理解,診断分析,人口統計学的抽出について紹介する。 LMODinは21,993枚の光学コヒーレンストモグラフィー、走査型レーザー眼科鏡、眼写真、手術シーン、カラーファンドス写真を含む。我々は、13の最先端のLVLMをベンチマークし、眼科画像の解釈には完璧ではないことを発見した。モデルは、診断分析と人口統計抽出に苦慮し、空間的推論の弱点、診断分析、領域外クエリの処理、眼科画像のバイオマーカーを扱うための安全ガードを明らかにする。

関連論文リスト

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology [43.092364533480456]
視力低下の眼疾患は、労働力不足によるタイムリーな診断と専門医療へのアクセス制限により、世界的な健康上の重荷となる。本報告では,12の眼球運動条件に共通する多粒性アノテーションと5つの画像モダリティを併用した32,633例の大規模マルチモーダル眼科ベンチマークを報告する。このデータセットは、画像、解剖学的構造、人口統計、自由テキストアノテーションを統合し、解剖学的構造認識、疾患スクリーニング、疾患ステージング、およびバイアス評価のための人口統計予測をサポートする。
論文参考訳（メタデータ） (2025-09-30T00:29:18Z)
EH-Benchmark Ophthalmic Hallucination Benchmark and Agent-Driven Top-Down Traceable Reasoning Workflow [43.82288530883818]
EH-Benchmarkは、医学大言語モデルにおける幻覚を評価するために設計された新しい眼科ベンチマークである。特定のタスクとエラータイプに基づいて幻覚を視覚的理解と論理的構成の2つの主要クラスに分類する。我々のフレームワークは、両方の幻覚、精度、解釈可能性、信頼性を著しく軽減します。
論文参考訳（メタデータ） (2025-07-24T12:07:36Z)
EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model [51.66031028717933]
Med-LVLM(Med-LVLM)は、医療において重要な可能性を示す。現在、知的眼科診断は、(i)データ、(ii)ベンチマーク、(iii)モデルという3つの大きな課題に直面している。我々は、前述の3つの課題に対処するEyecare Kitを提案する。
論文参考訳（メタデータ） (2025-04-18T12:09:15Z)
A Novel Ophthalmic Benchmark for Evaluating Multimodal Large Language Models with Fundus Photographs and OCT Images [11.761590928900358]
眼科領域では,光学コヒーレンス・トモグラフィー(OCT)の報告を解析するために,大言語モデル(MLLM)が研究されている。データセットは439基の画像と75基のOCT画像からなる。標準化されたAPIベースのフレームワークを用いて、7つの主流MLLMを評価し、異なる疾患の診断精度に有意なばらつきが認められた。
論文参考訳（メタデータ） (2025-03-10T09:19:55Z)
RetinalGPT: A Retinal Clinical Preference Conversational Assistant Powered by Large Vision-Language Models [17.579521693647383]
臨床的に好ましい網膜画像の定量的解析のための多モード対話アシスタントであるtextitRetinalGPT を紹介する。特に網膜GPTは、網膜疾患の診断において、ジェネリックドメインのMLLMよりも大きなマージンで優れている。
論文参考訳（メタデータ） (2025-03-06T00:19:54Z)
EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis [20.318178211934985]
本研究では,277万点以上の眼科画像と部分テキストデータを用いた視覚言語基盤モデルであるEyeCLIPを提案する。 EyeCLIPは、眼疾患や全身疾患を含む幅広い下流のタスクに移行することができる。
論文参考訳（メタデータ） (2024-09-10T17:00:19Z)
Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文参考訳（メタデータ） (2024-07-08T09:08:42Z)
Ophtha-LLaMA2: A Large Language Model for Ophthalmology [31.39653268440651]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きな成功を収めた。本研究は,眼科疾患の診断に適したLLM「Ophtha-LLaMA2」を構築した。推測試験の結果,Ophtha-LLaMA2は細調整データセットが小さい場合でも,眼科診断において有意に良好な成績を示した。
論文参考訳（メタデータ） (2023-12-08T08:43:46Z)
VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for Generalist Ophthalmic Artificial Intelligence [27.92420837559191]
VisionFMは560,457人の眼科画像340万枚を事前訓練した基礎モデルである。事前トレーニングの後、VisionFMは複数の眼科人工知能(AI)応用を育成する基盤を提供する。 VisionFMの一般知能は、12の一般的な眼科疾患を共同診断する際に、基礎的および中間的なレベルの眼科医より優れていた。
論文参考訳（メタデータ） (2023-10-08T03:40:14Z)
OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant based on Instructions and Dialogue [7.140551103766788]
我々は、眼科大言語と視覚アシスタント(OphGLM)を完成させるために、大きな言語モデルに視覚能力を導入する。実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-06-21T11:09:48Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
DRAC: Diabetic Retinopathy Analysis Challenge with Ultra-Wide Optical Coherence Tomography Angiography Images [51.27125547308154]
第25回医用画像コンピューティング・コンピュータ支援介入国際会議(MICCAI 2022)にともなうDRAC糖尿病網膜症解析チャレンジの企画を行った。この課題は、DR病変の分節化、画像品質評価、DRグレーディングの3つのタスクから構成される。本稿では,課題の各課題について,トップパフォーマンスのソリューションと結果の要約と分析を行う。
論文参考訳（メタデータ） (2023-04-05T12:04:55Z)
Efficient Screening of Diseased Eyes based on Fundus Autofluorescence Images using Support Vector Machine [0.12189422792863448]
さまざまな視力障害は、目の焦点領域の地理的縮縮(GA)と関連している。現在の臨床では、眼科医は、眼底蛍光(FAF)画像に基づいて、このようなGAの存在を手動で検出する。健康眼と病眼をアルゴリズムで識別し,眼科医のみからの入力を限定したスクリーニングステップを提案する。
論文参考訳（メタデータ） (2021-04-17T11:54:34Z)
An Interpretable Multiple-Instance Approach for the Detection of referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文参考訳（メタデータ） (2021-03-02T13:14:15Z)
Modeling and Enhancing Low-quality Retinal Fundus Images [167.02325845822276]
低画質の眼底画像は臨床観察における不確実性を高め、誤診のリスクを引き起こす。本稿では,グローバルな劣化要因を抑えるために,臨床指向の基盤拡張ネットワーク(cofe-Net)を提案する。合成画像と実画像の両方の実験により、我々のアルゴリズムは網膜の細部を失うことなく、低品質の眼底画像を効果的に補正することを示した。
論文参考訳（メタデータ） (2020-05-12T08:01:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。