論文の概要: VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for
Generalist Ophthalmic Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2310.04992v1
- Date: Sun, 8 Oct 2023 03:40:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:47:56.358335
- Title: VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for
Generalist Ophthalmic Artificial Intelligence
- Title(参考訳): visionfm:汎用眼科人工知能のためのマルチモーダルマルチタスクビジョン基盤モデル
- Authors: Jianing Qiu, Jian Wu, Hao Wei, Peilun Shi, Minqing Zhang, Yunyun Sun,
Lin Li, Hanruo Liu, Hongyi Liu, Simeng Hou, Yuyang Zhao, Xuehui Shi, Junfang
Xian, Xiaoxia Qu, Sirui Zhu, Lijie Pan, Xiaoniao Chen, Xiaojia Zhang, Shuai
Jiang, Kebing Wang, Chenlong Yang, Mingqiang Chen, Sujie Fan, Jianhua Hu,
Aiguo Lv, Hui Miao, Li Guo, Shujun Zhang, Cheng Pei, Xiaojuan Fan, Jianqin
Lei, Ting Wei, Junguo Duan, Chun Liu, Xiaobo Xia, Siqi Xiong, Junhong Li,
Benny Lo, Yih Chung Tham, Tien Yin Wong, Ningli Wang, and Wu Yuan
- Abstract要約: VisionFMは560,457人の眼科画像340万枚を事前訓練した基礎モデルである。
事前トレーニングの後、VisionFMは複数の眼科人工知能(AI)応用を育成する基盤を提供する。
VisionFMの一般知能は、12の一般的な眼科疾患を共同診断する際に、基礎的および中間的なレベルの眼科医より優れていた。
- 参考スコア(独自算出の注目度): 27.92420837559191
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present VisionFM, a foundation model pre-trained with 3.4 million
ophthalmic images from 560,457 individuals, covering a broad range of
ophthalmic diseases, modalities, imaging devices, and demography. After
pre-training, VisionFM provides a foundation to foster multiple ophthalmic
artificial intelligence (AI) applications, such as disease screening and
diagnosis, disease prognosis, subclassification of disease phenotype, and
systemic biomarker and disease prediction, with each application enhanced with
expert-level intelligence and accuracy. The generalist intelligence of VisionFM
outperformed ophthalmologists with basic and intermediate levels in jointly
diagnosing 12 common ophthalmic diseases. Evaluated on a new large-scale
ophthalmic disease diagnosis benchmark database, as well as a new large-scale
segmentation and detection benchmark database, VisionFM outperformed strong
baseline deep neural networks. The ophthalmic image representations learned by
VisionFM exhibited noteworthy explainability, and demonstrated strong
generalizability to new ophthalmic modalities, disease spectrum, and imaging
devices. As a foundation model, VisionFM has a large capacity to learn from
diverse ophthalmic imaging data and disparate datasets. To be commensurate with
this capacity, in addition to the real data used for pre-training, we also
generated and leveraged synthetic ophthalmic imaging data. Experimental results
revealed that synthetic data that passed visual Turing tests, can also enhance
the representation learning capability of VisionFM, leading to substantial
performance gains on downstream ophthalmic AI tasks. Beyond the ophthalmic AI
applications developed, validated, and demonstrated in this work, substantial
further applications can be achieved in an efficient and cost-effective manner
using VisionFM as the foundation.
- Abstract(参考訳): 我々は,560,457人から340万枚の眼科画像が予め訓練された基礎モデルであるvisionfmを提案する。
事前トレーニングの後、visionfmは、病気のスクリーニングと診断、疾患の予後、疾患の表現型のサブクラス化、体系的なバイオマーカーと疾患予測など、複数の眼科人工知能(ai)応用を育成するための基盤を提供する。
visionfmの汎用知性は、12の一般的な眼科疾患を共同診断する基礎レベルと中間レベルを持つ眼科医を上回った。
新しい大規模眼科疾患診断ベンチマークデータベースと、新しい大規模セグメンテーションと検出ベンチマークデータベースに基づいて評価され、VisionFMは強力なベースラインディープニューラルネットワークを上回った。
VisionFMで学んだ眼科画像表現は、注目すべき説明可能性を示し、新しい眼科モダリティ、疾患スペクトル、画像装置に強い一般化性を示した。
基礎モデルとして、VisionFMは様々な眼科画像データと異なるデータセットから学ぶ能力を持つ。
プレトレーニングに使用する実データに加えて, この容量を考慮し, 合成眼科画像データを作成し, 利用した。
その結果、視覚的チューリングテストに合格した合成データは、VisionFMの表現学習能力を高め、下流の眼科AIタスクでかなりの性能向上をもたらすことが判明した。
この研究で開発、検証、実証された眼科AIアプリケーション以外にも、VisionFMを基礎として効率的で費用対効果の高い方法で、さらに多くの応用が達成できる。
関連論文リスト
- Enhancing Retinal Disease Classification from OCTA Images via Active Learning Techniques [0.8035416719640156]
高齢のアメリカ人では眼疾患が一般的であり、視力や視力の低下につながることがある。
光コヒーレンス・トモグラフィ・アンギオグラフィー(OCTA)により、臨床医が網膜血管の高品質な画像を取得することができる画像技術の最近の進歩
OCTAは、一般的なOCT画像から得られる構造情報と比較して、詳細な血管画像を提供する。
論文 参考訳(メタデータ) (2024-07-21T23:24:49Z) - M3T: Multi-Modal Medical Transformer to bridge Clinical Context with Visual Insights for Retinal Image Medical Description Generation [1.8789068567093286]
Multi-Modal Medical Transformer (M3T)は、視覚表現と診断キーワードを統合する新しいディープラーニングアーキテクチャである。
DeepEyeNetデータセットに関する実験的研究は、眼科医の基準を満たす上でのM3Tの成功を検証する。
論文 参考訳(メタデータ) (2024-06-19T00:46:48Z) - EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging [13.88319807760491]
眼科画像のマルチモーダル基盤モデルであるEyeFoundを提案する。
ラベルのないマルチモーダル網膜画像から一般化可能な表現を学習する。
11の眼科領域にわたる227の病院の278万枚の画像で訓練されている。
論文 参考訳(メタデータ) (2024-05-18T17:03:39Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for
Multimodal Medical Diagnosis [59.35504779947686]
GPT-4VはOpenAIの最新のマルチモーダル診断モデルである。
評価対象は17の人体システムである。
GPT-4Vは、医用画像のモダリティと解剖学を区別する能力を示す。
疾患の診断と包括的報告作成において重大な課題に直面している。
論文 参考訳(メタデータ) (2023-10-15T18:32:27Z) - A Foundation LAnguage-Image model of the Retina (FLAIR): Encoding expert
knowledge in text supervision [17.583536041845402]
広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。
各種ソースから37個のオープンアクセスデータセットを収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
論文 参考訳(メタデータ) (2023-08-15T17:39:52Z) - OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant
based on Instructions and Dialogue [7.140551103766788]
我々は、眼科大言語と視覚アシスタント(OphGLM)を完成させるために、大きな言語モデルに視覚能力を導入する。
実験の結果,OphGLMモデルは非常によく機能し,眼科における臨床応用に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-21T11:09:48Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - DRAC: Diabetic Retinopathy Analysis Challenge with Ultra-Wide Optical
Coherence Tomography Angiography Images [51.27125547308154]
第25回医用画像コンピューティング・コンピュータ支援介入国際会議(MICCAI 2022)にともなうDRAC糖尿病網膜症解析チャレンジの企画を行った。
この課題は、DR病変の分節化、画像品質評価、DRグレーディングの3つのタスクから構成される。
本稿では,課題の各課題について,トップパフォーマンスのソリューションと結果の要約と分析を行う。
論文 参考訳(メタデータ) (2023-04-05T12:04:55Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。