論文の概要: VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for
Generalist Ophthalmic Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2310.04992v1
- Date: Sun, 8 Oct 2023 03:40:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:47:56.358335
- Title: VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for
Generalist Ophthalmic Artificial Intelligence
- Title(参考訳): visionfm:汎用眼科人工知能のためのマルチモーダルマルチタスクビジョン基盤モデル
- Authors: Jianing Qiu, Jian Wu, Hao Wei, Peilun Shi, Minqing Zhang, Yunyun Sun,
Lin Li, Hanruo Liu, Hongyi Liu, Simeng Hou, Yuyang Zhao, Xuehui Shi, Junfang
Xian, Xiaoxia Qu, Sirui Zhu, Lijie Pan, Xiaoniao Chen, Xiaojia Zhang, Shuai
Jiang, Kebing Wang, Chenlong Yang, Mingqiang Chen, Sujie Fan, Jianhua Hu,
Aiguo Lv, Hui Miao, Li Guo, Shujun Zhang, Cheng Pei, Xiaojuan Fan, Jianqin
Lei, Ting Wei, Junguo Duan, Chun Liu, Xiaobo Xia, Siqi Xiong, Junhong Li,
Benny Lo, Yih Chung Tham, Tien Yin Wong, Ningli Wang, and Wu Yuan
- Abstract要約: VisionFMは560,457人の眼科画像340万枚を事前訓練した基礎モデルである。
事前トレーニングの後、VisionFMは複数の眼科人工知能(AI)応用を育成する基盤を提供する。
VisionFMの一般知能は、12の一般的な眼科疾患を共同診断する際に、基礎的および中間的なレベルの眼科医より優れていた。
- 参考スコア(独自算出の注目度): 27.92420837559191
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present VisionFM, a foundation model pre-trained with 3.4 million
ophthalmic images from 560,457 individuals, covering a broad range of
ophthalmic diseases, modalities, imaging devices, and demography. After
pre-training, VisionFM provides a foundation to foster multiple ophthalmic
artificial intelligence (AI) applications, such as disease screening and
diagnosis, disease prognosis, subclassification of disease phenotype, and
systemic biomarker and disease prediction, with each application enhanced with
expert-level intelligence and accuracy. The generalist intelligence of VisionFM
outperformed ophthalmologists with basic and intermediate levels in jointly
diagnosing 12 common ophthalmic diseases. Evaluated on a new large-scale
ophthalmic disease diagnosis benchmark database, as well as a new large-scale
segmentation and detection benchmark database, VisionFM outperformed strong
baseline deep neural networks. The ophthalmic image representations learned by
VisionFM exhibited noteworthy explainability, and demonstrated strong
generalizability to new ophthalmic modalities, disease spectrum, and imaging
devices. As a foundation model, VisionFM has a large capacity to learn from
diverse ophthalmic imaging data and disparate datasets. To be commensurate with
this capacity, in addition to the real data used for pre-training, we also
generated and leveraged synthetic ophthalmic imaging data. Experimental results
revealed that synthetic data that passed visual Turing tests, can also enhance
the representation learning capability of VisionFM, leading to substantial
performance gains on downstream ophthalmic AI tasks. Beyond the ophthalmic AI
applications developed, validated, and demonstrated in this work, substantial
further applications can be achieved in an efficient and cost-effective manner
using VisionFM as the foundation.
- Abstract(参考訳): 我々は,560,457人から340万枚の眼科画像が予め訓練された基礎モデルであるvisionfmを提案する。
事前トレーニングの後、visionfmは、病気のスクリーニングと診断、疾患の予後、疾患の表現型のサブクラス化、体系的なバイオマーカーと疾患予測など、複数の眼科人工知能(ai)応用を育成するための基盤を提供する。
visionfmの汎用知性は、12の一般的な眼科疾患を共同診断する基礎レベルと中間レベルを持つ眼科医を上回った。
新しい大規模眼科疾患診断ベンチマークデータベースと、新しい大規模セグメンテーションと検出ベンチマークデータベースに基づいて評価され、VisionFMは強力なベースラインディープニューラルネットワークを上回った。
VisionFMで学んだ眼科画像表現は、注目すべき説明可能性を示し、新しい眼科モダリティ、疾患スペクトル、画像装置に強い一般化性を示した。
基礎モデルとして、VisionFMは様々な眼科画像データと異なるデータセットから学ぶ能力を持つ。
プレトレーニングに使用する実データに加えて, この容量を考慮し, 合成眼科画像データを作成し, 利用した。
その結果、視覚的チューリングテストに合格した合成データは、VisionFMの表現学習能力を高め、下流の眼科AIタスクでかなりの性能向上をもたらすことが判明した。
この研究で開発、検証、実証された眼科AIアプリケーション以外にも、VisionFMを基礎として効率的で費用対効果の高い方法で、さらに多くの応用が達成できる。
関連論文リスト
- EyeDiff: text-to-image diffusion model improves rare eye disease diagnosis [7.884451100342276]
EyeDiffは、自然言語のプロンプトからマルチモーダル眼科画像を生成するために設計されたテキスト・ツー・イメージモデルである。
EyeDiffは8つの大規模なデータセットでトレーニングされており、10のマルチリージョンの外部データセットに適応している。
論文 参考訳(メタデータ) (2024-11-15T07:30:53Z) - LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。
我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。
その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文 参考訳(メタデータ) (2024-10-02T14:57:58Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis [20.318178211934985]
本研究では,277万点以上の眼科画像と部分テキストデータを用いた視覚言語基盤モデルであるEyeCLIPを提案する。
EyeCLIPは、眼疾患や全身疾患を含む幅広い下流のタスクに移行することができる。
論文 参考訳(メタデータ) (2024-09-10T17:00:19Z) - VisionUnite: A Vision-Language Foundation Model for Ophthalmology Enhanced with Clinical Knowledge [26.93106207758859]
臨床知識によって強化された眼科の新しい視覚言語基盤モデルであるVisionUniteを紹介する。
VisionUniteは、124万の画像テキストペアからなる広範囲なデータセットで事前訓練されている。
実験の結果,VisionUnite は GPT-4V や Gemini Pro などの既存の生成基盤モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T23:31:07Z) - EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging [13.88319807760491]
眼科画像のマルチモーダル基盤モデルであるEyeFoundを提案する。
ラベルのないマルチモーダル網膜画像から一般化可能な表現を学習する。
11の眼科領域にわたる227の病院の278万枚の画像で訓練されている。
論文 参考訳(メタデータ) (2024-05-18T17:03:39Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Artificial General Intelligence for Medical Imaging Analysis [92.3940918983821]
大規模人工知能(AGI)モデルは、様々な汎用ドメインタスクにおいて前例のない成功を収めた。
これらのモデルは、医学分野固有の複雑さとユニークな特徴から生じる顕著な課題に直面している。
このレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2023-06-08T18:04:13Z) - DRAC: Diabetic Retinopathy Analysis Challenge with Ultra-Wide Optical
Coherence Tomography Angiography Images [51.27125547308154]
第25回医用画像コンピューティング・コンピュータ支援介入国際会議(MICCAI 2022)にともなうDRAC糖尿病網膜症解析チャレンジの企画を行った。
この課題は、DR病変の分節化、画像品質評価、DRグレーディングの3つのタスクから構成される。
本稿では,課題の各課題について,トップパフォーマンスのソリューションと結果の要約と分析を行う。
論文 参考訳(メタデータ) (2023-04-05T12:04:55Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。