論文の概要: EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging
- arxiv url: http://arxiv.org/abs/2405.11338v1
- Date: Sat, 18 May 2024 17:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 18:09:02.892353
- Title: EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging
- Title(参考訳): EyeFound:眼科画像のためのマルチモーダル・ジェネリスト・ファンデーションモデル
- Authors: Danli Shi, Weiyi Zhang, Xiaolan Chen, Yexin Liu, Jianchen Yang, Siyu Huang, Yih Chung Tham, Yingfeng Zheng, Mingguang He,
- Abstract要約: 眼科画像のマルチモーダル基盤モデルであるEyeFoundを提案する。
ラベルのないマルチモーダル網膜画像から一般化可能な表現を学習する。
11の眼科領域にわたる227の病院の278万枚の画像で訓練されている。
- 参考スコア(独自算出の注目度): 10.343151990992695
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Artificial intelligence (AI) is vital in ophthalmology, tackling tasks like diagnosis, classification, and visual question answering (VQA). However, existing AI models in this domain often require extensive annotation and are task-specific, limiting their clinical utility. While recent developments have brought about foundation models for ophthalmology, they are limited by the need to train separate weights for each imaging modality, preventing a comprehensive representation of multi-modal features. This highlights the need for versatile foundation models capable of handling various tasks and modalities in ophthalmology. To address this gap, we present EyeFound, a multimodal foundation model for ophthalmic images. Unlike existing models, EyeFound learns generalizable representations from unlabeled multimodal retinal images, enabling efficient model adaptation across multiple applications. Trained on 2.78 million images from 227 hospitals across 11 ophthalmic modalities, EyeFound facilitates generalist representations and diverse multimodal downstream tasks, even for detecting challenging rare diseases. It outperforms previous work RETFound in diagnosing eye diseases, predicting systemic disease incidents, and zero-shot multimodal VQA. EyeFound provides a generalizable solution to improve model performance and lessen the annotation burden on experts, facilitating widespread clinical AI applications from retinal imaging.
- Abstract(参考訳): 人工知能(AI)は、眼科、診断、分類、視覚的質問応答(VQA)といったタスクに取り組む上で不可欠である。
しかし、この領域の既存のAIモデルは、広範囲のアノテーションを必要とし、その臨床的有用性を制限するタスク固有であることが多い。
近年、眼科の基礎モデルが開発されているが、画像のモダリティごとに異なる重みを訓練する必要があるため、マルチモーダルな特徴の包括的表現が妨げられている。
これは眼科における様々なタスクやモダリティを扱える汎用基盤モデルの必要性を強調している。
このギャップに対処するため,眼科画像のマルチモーダル基盤モデルであるEyeFoundを提案する。
既存のモデルとは異なり、EyeFoundはラベルのないマルチモーダル網膜画像から一般化可能な表現を学び、複数のアプリケーションにまたがる効率的なモデル適応を可能にする。
EyeFoundは、11の眼科領域にまたがる227の病院の278万の画像に基づいて訓練されており、難治性の稀な疾患を検出することさえも、汎用的な表現と多様なマルチモーダルな下流のタスクを促進している。
眼疾患の診断、全身疾患の予知、ゼロショットマルチモーダルVQAにおいて、RETFoundよりも優れていた。
EyeFoundは、モデルパフォーマンスを改善し、専門家のアノテーション負担を軽減するための一般化可能なソリューションを提供する。
関連論文リスト
- M3T: Multi-Modal Medical Transformer to bridge Clinical Context with Visual Insights for Retinal Image Medical Description Generation [1.8789068567093286]
Multi-Modal Medical Transformer (M3T)は、視覚表現と診断キーワードを統合する新しいディープラーニングアーキテクチャである。
DeepEyeNetデータセットに関する実験的研究は、眼科医の基準を満たす上でのM3Tの成功を検証する。
論文 参考訳(メタデータ) (2024-06-19T00:46:48Z) - RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports [19.915033191502328]
Vision-Language Foundationモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されている。
この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。
我々の基礎モデルであるRET-CLIPは、カラーファンドスの一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。
論文 参考訳(メタデータ) (2024-05-23T03:20:51Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - VISION-MAE: A Foundation Model for Medical Image Segmentation and
Classification [36.8105960525233]
医用画像に特化して設計された新しい基礎モデルVISION-MAEを提案する。
VISION-MAEは、様々なモダリティから250万枚の未ラベル画像のデータセットでトレーニングされている。
その後、明示的なラベルを使って分類とセグメンテーションのタスクに適応する。
論文 参考訳(メタデータ) (2024-02-01T21:45:12Z) - VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for
Generalist Ophthalmic Artificial Intelligence [27.92420837559191]
VisionFMは560,457人の眼科画像340万枚を事前訓練した基礎モデルである。
事前トレーニングの後、VisionFMは複数の眼科人工知能(AI)応用を育成する基盤を提供する。
VisionFMの一般知能は、12の一般的な眼科疾患を共同診断する際に、基礎的および中間的なレベルの眼科医より優れていた。
論文 参考訳(メタデータ) (2023-10-08T03:40:14Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant
based on Instructions and Dialogue [7.140551103766788]
我々は、眼科大言語と視覚アシスタント(OphGLM)を完成させるために、大きな言語モデルに視覚能力を導入する。
実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T11:09:48Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z) - Universal Model for Multi-Domain Medical Image Retrieval [88.67940265012638]
医用画像検索(MIR)は、医師が類似した患者のデータを素早く見つけるのに役立つ。
MIRはデジタル画像モダリティの多用により、ますます役に立ちつつある。
しかし、病院における様々なデジタル画像モダリティの人気もまた、MIRにいくつかの課題をもたらしている。
論文 参考訳(メタデータ) (2020-07-14T23:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。