論文の概要: EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model
- arxiv url: http://arxiv.org/abs/2504.13650v1
- Date: Fri, 18 Apr 2025 12:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 15:50:11.635635
- Title: EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model
- Title(参考訳): EyecareGPT: 分類されたデータセットとベンチマークとモデルによる総合的眼科理解の促進
- Authors: Sijing Li, Tianwei Lin, Lingshuai Lin, Wenqiao Zhang, Jiang Liu, Xiaoda Yang, Juncheng Li, Yucheng He, Xiaohui Song, Jun Xiao, Yueting Zhuang, Beng Chin Ooi,
- Abstract要約: Med-LVLM(Med-LVLM)は、医療において重要な可能性を示す。
現在、知的眼科診断は、(i)データ、(ii)ベンチマーク、(iii)モデルという3つの大きな課題に直面している。
我々は、前述の3つの課題に対処するEyecare Kitを提案する。
- 参考スコア(独自算出の注目度): 51.66031028717933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Large Vision-Language Models (Med-LVLMs) demonstrate significant potential in healthcare, but their reliance on general medical data and coarse-grained global visual understanding limits them in intelligent ophthalmic diagnosis. Currently, intelligent ophthalmic diagnosis faces three major challenges: (i) Data. The lack of deeply annotated, high-quality, multi-modal ophthalmic visual instruction data; (ii) Benchmark. The absence of a comprehensive and systematic benchmark for evaluating diagnostic performance; (iii) Model. The difficulty of adapting holistic visual architectures to fine-grained, region-specific ophthalmic lesion identification. In this paper, we propose the Eyecare Kit, which systematically tackles the aforementioned three key challenges with the tailored dataset, benchmark and model: First, we construct a multi-agent data engine with real-life ophthalmology data to produce Eyecare-100K, a high-quality ophthalmic visual instruction dataset. Subsequently, we design Eyecare-Bench, a benchmark that comprehensively evaluates the overall performance of LVLMs on intelligent ophthalmic diagnosis tasks across multiple dimensions. Finally, we develop the EyecareGPT, optimized for fine-grained ophthalmic visual understanding thoroughly, which incorporates an adaptive resolution mechanism and a layer-wise dense connector. Extensive experimental results indicate that the EyecareGPT achieves state-of-the-art performance in a range of ophthalmic tasks, underscoring its significant potential for the advancement of open research in intelligent ophthalmic diagnosis. Our project is available at https://github.com/DCDmllm/EyecareGPT.
- Abstract(参考訳): Med-LVLMs (Med-LVLMs) は医療において有意な可能性を示すが、一般的な医療データへの依存度や大まかな世界的視覚理解は知的眼科診断においてそれらを制限している。
現在、知的眼科診断は3つの大きな課題に直面している。
(i)データ。
深い注釈付き、高品質、マルチモーダル眼科視覚指導データの欠如
(ii)ベンチマーク。
診断性能評価のための総合的かつ体系的なベンチマークの欠如
(三)モデル。
局所的な視覚的構造をきめ細かな領域特異的な眼科的病変に適応させることの難しさ
本稿では、上記の3つの重要な課題に体系的に対処するEyecare Kitを提案する。まず、実生活眼科データを用いたマルチエージェントデータエンジンを構築し、高品質な眼科ビジュアルインストラクションデータセットであるEyecare-100Kを作成する。
次に、複数の次元にわたる知的眼科診断タスクにおけるLVLMの全体的な性能を総合的に評価するベンチマークであるEyecare-Benchを設計する。
最後に、適応分解機構と層幅密度コネクタを組み込んだ、きめ細かな眼科的視覚理解のために最適化されたEyecareGPTを開発した。
広範囲な実験結果から,眼科領域におけるEyecareGPTは,知的眼科診断におけるオープンリサーチの進展に有意な可能性が示唆された。
私たちのプロジェクトはhttps://github.com/DCDmllm/EyecareGPTで利用可能です。
関連論文リスト
- LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。
我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。
その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文 参考訳(メタデータ) (2024-10-02T14:57:58Z) - EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis [20.318178211934985]
本研究では,277万点以上の眼科画像と部分テキストデータを用いた視覚言語基盤モデルであるEyeCLIPを提案する。
EyeCLIPは、眼疾患や全身疾患を含む幅広い下流のタスクに移行することができる。
論文 参考訳(メタデータ) (2024-09-10T17:00:19Z) - VisionUnite: A Vision-Language Foundation Model for Ophthalmology Enhanced with Clinical Knowledge [26.93106207758859]
臨床知識によって強化された眼科の新しい視覚言語基盤モデルであるVisionUniteを紹介する。
VisionUniteは、124万の画像テキストペアからなる広範囲なデータセットで事前訓練されている。
実験の結果,VisionUnite は GPT-4V や Gemini Pro などの既存の生成基盤モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T23:31:07Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - EyeGPT: Ophthalmic Assistant with Large Language Models [6.678252895718266]
一般世界の知識で訓練された大規模言語モデル(LLM)は、専門家レベルで医療関連タスクに取り組む能力を持っていないかもしれない。
本稿では、ロールプレイング、ファインタニング、検索強化生成を含む3つの最適化戦略を用いて、眼科に特化して設計された特殊なLCMであるEyeGPTを紹介する。
異なるEyeGPT変異体の性能を評価することにより、人間の眼科医に対する理解可能性、信頼性、共感のレベルに匹敵する、最も効果的なものを特定する。
論文 参考訳(メタデータ) (2024-02-29T09:35:41Z) - VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for
Generalist Ophthalmic Artificial Intelligence [27.92420837559191]
VisionFMは560,457人の眼科画像340万枚を事前訓練した基礎モデルである。
事前トレーニングの後、VisionFMは複数の眼科人工知能(AI)応用を育成する基盤を提供する。
VisionFMの一般知能は、12の一般的な眼科疾患を共同診断する際に、基礎的および中間的なレベルの眼科医より優れていた。
論文 参考訳(メタデータ) (2023-10-08T03:40:14Z) - DRAC: Diabetic Retinopathy Analysis Challenge with Ultra-Wide Optical
Coherence Tomography Angiography Images [51.27125547308154]
第25回医用画像コンピューティング・コンピュータ支援介入国際会議(MICCAI 2022)にともなうDRAC糖尿病網膜症解析チャレンジの企画を行った。
この課題は、DR病変の分節化、画像品質評価、DRグレーディングの3つのタスクから構成される。
本稿では,課題の各課題について,トップパフォーマンスのソリューションと結果の要約と分析を行う。
論文 参考訳(メタデータ) (2023-04-05T12:04:55Z) - A Deep Learning Approach for the Segmentation of Electroencephalography
Data in Eye Tracking Applications [56.458448869572294]
脳波データの時系列セグメンテーションのための新しいフレームワークDETRtimeを紹介する。
エンドツーエンドのディープラーニングベースのフレームワークは、コンピュータビジョンの進歩を前面に立たせています。
我々のモデルは脳波睡眠ステージセグメンテーションのタスクにおいてよく一般化される。
論文 参考訳(メタデータ) (2022-06-17T10:17:24Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - A Benchmark for Studying Diabetic Retinopathy: Segmentation, Grading,
and Transferability [76.64661091980531]
糖尿病患者は糖尿病網膜症(DR)を発症するリスクがある
コンピュータ支援型DR診断は、DRの早期検出と重度評価のための有望なツールである。
このデータセットは、ピクセルレベルのDR関連病変アノテーションを持つ1,842枚の画像と、6人の眼科医によって評価された画像レベルのラベルを持つ1,000枚の画像を有する。
論文 参考訳(メタデータ) (2020-08-22T07:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。