論文の概要: EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging
- arxiv url: http://arxiv.org/abs/2405.11338v2
- Date: Wed, 22 May 2024 02:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 12:57:52.085660
- Title: EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging
- Title(参考訳): EyeFound:眼科画像のためのマルチモーダル・ジェネリスト・ファンデーションモデル
- Authors: Danli Shi, Weiyi Zhang, Xiaolan Chen, Yexin Liu, Jiancheng Yang, Siyu Huang, Yih Chung Tham, Yingfeng Zheng, Mingguang He,
- Abstract要約: 眼科画像のマルチモーダル基盤モデルであるEyeFoundを提案する。
ラベルのないマルチモーダル網膜画像から一般化可能な表現を学習する。
11の眼科領域にわたる227の病院の278万枚の画像で訓練されている。
- 参考スコア(独自算出の注目度): 13.88319807760491
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Artificial intelligence (AI) is vital in ophthalmology, tackling tasks like diagnosis, classification, and visual question answering (VQA). However, existing AI models in this domain often require extensive annotation and are task-specific, limiting their clinical utility. While recent developments have brought about foundation models for ophthalmology, they are limited by the need to train separate weights for each imaging modality, preventing a comprehensive representation of multi-modal features. This highlights the need for versatile foundation models capable of handling various tasks and modalities in ophthalmology. To address this gap, we present EyeFound, a multimodal foundation model for ophthalmic images. Unlike existing models, EyeFound learns generalizable representations from unlabeled multimodal retinal images, enabling efficient model adaptation across multiple applications. Trained on 2.78 million images from 227 hospitals across 11 ophthalmic modalities, EyeFound facilitates generalist representations and diverse multimodal downstream tasks, even for detecting challenging rare diseases. It outperforms previous work RETFound in diagnosing eye diseases, predicting systemic disease incidents, and zero-shot multimodal VQA. EyeFound provides a generalizable solution to improve model performance and lessen the annotation burden on experts, facilitating widespread clinical AI applications for retinal imaging.
- Abstract(参考訳): 人工知能(AI)は、眼科、診断、分類、視覚的質問応答(VQA)といったタスクに取り組む上で不可欠である。
しかし、この領域の既存のAIモデルは、広範囲のアノテーションを必要とし、その臨床的有用性を制限するタスク固有であることが多い。
近年、眼科の基礎モデルが開発されているが、画像のモダリティごとに異なる重みを訓練する必要があるため、マルチモーダルな特徴の包括的表現が妨げられている。
これは眼科における様々なタスクやモダリティを扱える汎用基盤モデルの必要性を強調している。
このギャップに対処するため,眼科画像のマルチモーダル基盤モデルであるEyeFoundを提案する。
既存のモデルとは異なり、EyeFoundはラベルのないマルチモーダル網膜画像から一般化可能な表現を学び、複数のアプリケーションにまたがる効率的なモデル適応を可能にする。
EyeFoundは、11の眼科領域にまたがる227の病院の278万の画像に基づいて訓練されており、難治性の稀な疾患を検出することさえも、汎用的な表現と多様なマルチモーダルな下流のタスクを促進している。
眼疾患の診断、全身疾患の予知、ゼロショットマルチモーダルVQAにおいて、RETFoundよりも優れていた。
EyeFoundは、モデルパフォーマンスを改善し、専門家のアノテーション負担を軽減するための一般化可能なソリューションを提供する。
関連論文リスト
- EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis [20.318178211934985]
本研究では,277万点以上の眼科画像と部分テキストデータを用いた視覚言語基盤モデルであるEyeCLIPを提案する。
EyeCLIPは、眼疾患や全身疾患を含む幅広い下流のタスクに移行することができる。
論文 参考訳(メタデータ) (2024-09-10T17:00:19Z) - A Disease-Specific Foundation Model Using Over 100K Fundus Images: Release and Validation for Abnormality and Multi-Disease Classification on Downstream Tasks [0.0]
基礎画像の異常を検出するための教師付き人工知能モデルであるFundus-Specific Pretrained Model(Image+Fundus)を開発した。
57,803枚の画像を用いて、この事前訓練されたモデルを開発し、様々な下流タスクにおいて優れた性能を実現した。
論文 参考訳(メタデータ) (2024-08-16T15:03:06Z) - UrFound: Towards Universal Retinal Foundation Models via Knowledge-Guided Masked Modeling [26.087595095138305]
UrFoundは、マルチモーダル網膜画像とドメイン知識の両方から普遍的な表現を学ぶために設計された網膜基盤モデルである。
約180万枚の網膜画像のトレーニングにより、UrFoundは最大1.6万枚の未表示画像に基づいてトレーニングされた最先端の網膜基盤モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-08-10T19:31:29Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for
Generalist Ophthalmic Artificial Intelligence [27.92420837559191]
VisionFMは560,457人の眼科画像340万枚を事前訓練した基礎モデルである。
事前トレーニングの後、VisionFMは複数の眼科人工知能(AI)応用を育成する基盤を提供する。
VisionFMの一般知能は、12の一般的な眼科疾患を共同診断する際に、基礎的および中間的なレベルの眼科医より優れていた。
論文 参考訳(メタデータ) (2023-10-08T03:40:14Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant
based on Instructions and Dialogue [7.140551103766788]
我々は、眼科大言語と視覚アシスタント(OphGLM)を完成させるために、大きな言語モデルに視覚能力を導入する。
実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T11:09:48Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Artificial General Intelligence for Medical Imaging Analysis [92.3940918983821]
大規模人工知能(AGI)モデルは、様々な汎用ドメインタスクにおいて前例のない成功を収めた。
これらのモデルは、医学分野固有の複雑さとユニークな特徴から生じる顕著な課題に直面している。
このレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2023-06-08T18:04:13Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z) - Universal Model for Multi-Domain Medical Image Retrieval [88.67940265012638]
医用画像検索(MIR)は、医師が類似した患者のデータを素早く見つけるのに役立つ。
MIRはデジタル画像モダリティの多用により、ますます役に立ちつつある。
しかし、病院における様々なデジタル画像モダリティの人気もまた、MIRにいくつかの課題をもたらしている。
論文 参考訳(メタデータ) (2020-07-14T23:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。