Fugu-MT 論文翻訳(概要): VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for Generalist Ophthalmic Artificial Intelligence

論文の概要: VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for Generalist Ophthalmic Artificial Intelligence

arxiv url: http://arxiv.org/abs/2310.04992v1
Date: Sun, 8 Oct 2023 03:40:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 13:47:56.358335
Title: VisionFM: a Multi-Modal Multi-Task Vision Foundation Model for Generalist Ophthalmic Artificial Intelligence
Title（参考訳）: visionfm:汎用眼科人工知能のためのマルチモーダルマルチタスクビジョン基盤モデル
Authors: Jianing Qiu, Jian Wu, Hao Wei, Peilun Shi, Minqing Zhang, Yunyun Sun, Lin Li, Hanruo Liu, Hongyi Liu, Simeng Hou, Yuyang Zhao, Xuehui Shi, Junfang Xian, Xiaoxia Qu, Sirui Zhu, Lijie Pan, Xiaoniao Chen, Xiaojia Zhang, Shuai Jiang, Kebing Wang, Chenlong Yang, Mingqiang Chen, Sujie Fan, Jianhua Hu, Aiguo Lv, Hui Miao, Li Guo, Shujun Zhang, Cheng Pei, Xiaojuan Fan, Jianqin Lei, Ting Wei, Junguo Duan, Chun Liu, Xiaobo Xia, Siqi Xiong, Junhong Li, Benny Lo, Yih Chung Tham, Tien Yin Wong, Ningli Wang, and Wu Yuan
Abstract要約: VisionFMは560,457人の眼科画像340万枚を事前訓練した基礎モデルである。事前トレーニングの後、VisionFMは複数の眼科人工知能(AI)応用を育成する基盤を提供する。 VisionFMの一般知能は、12の一般的な眼科疾患を共同診断する際に、基礎的および中間的なレベルの眼科医より優れていた。
参考スコア（独自算出の注目度）: 27.92420837559191
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present VisionFM, a foundation model pre-trained with 3.4 million ophthalmic images from 560,457 individuals, covering a broad range of ophthalmic diseases, modalities, imaging devices, and demography. After pre-training, VisionFM provides a foundation to foster multiple ophthalmic artificial intelligence (AI) applications, such as disease screening and diagnosis, disease prognosis, subclassification of disease phenotype, and systemic biomarker and disease prediction, with each application enhanced with expert-level intelligence and accuracy. The generalist intelligence of VisionFM outperformed ophthalmologists with basic and intermediate levels in jointly diagnosing 12 common ophthalmic diseases. Evaluated on a new large-scale ophthalmic disease diagnosis benchmark database, as well as a new large-scale segmentation and detection benchmark database, VisionFM outperformed strong baseline deep neural networks. The ophthalmic image representations learned by VisionFM exhibited noteworthy explainability, and demonstrated strong generalizability to new ophthalmic modalities, disease spectrum, and imaging devices. As a foundation model, VisionFM has a large capacity to learn from diverse ophthalmic imaging data and disparate datasets. To be commensurate with this capacity, in addition to the real data used for pre-training, we also generated and leveraged synthetic ophthalmic imaging data. Experimental results revealed that synthetic data that passed visual Turing tests, can also enhance the representation learning capability of VisionFM, leading to substantial performance gains on downstream ophthalmic AI tasks. Beyond the ophthalmic AI applications developed, validated, and demonstrated in this work, substantial further applications can be achieved in an efficient and cost-effective manner using VisionFM as the foundation.
Abstract（参考訳）: 我々は,560,457人から340万枚の眼科画像が予め訓練された基礎モデルであるvisionfmを提案する。事前トレーニングの後、visionfmは、病気のスクリーニングと診断、疾患の予後、疾患の表現型のサブクラス化、体系的なバイオマーカーと疾患予測など、複数の眼科人工知能(ai)応用を育成するための基盤を提供する。 visionfmの汎用知性は、12の一般的な眼科疾患を共同診断する基礎レベルと中間レベルを持つ眼科医を上回った。新しい大規模眼科疾患診断ベンチマークデータベースと、新しい大規模セグメンテーションと検出ベンチマークデータベースに基づいて評価され、VisionFMは強力なベースラインディープニューラルネットワークを上回った。 VisionFMで学んだ眼科画像表現は、注目すべき説明可能性を示し、新しい眼科モダリティ、疾患スペクトル、画像装置に強い一般化性を示した。基礎モデルとして、VisionFMは様々な眼科画像データと異なるデータセットから学ぶ能力を持つ。プレトレーニングに使用する実データに加えて, この容量を考慮し, 合成眼科画像データを作成し, 利用した。その結果、視覚的チューリングテストに合格した合成データは、VisionFMの表現学習能力を高め、下流の眼科AIタスクでかなりの性能向上をもたらすことが判明した。この研究で開発、検証、実証された眼科AIアプリケーション以外にも、VisionFMを基礎として効率的で費用対効果の高い方法で、さらに多くの応用が達成できる。

関連論文リスト

EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model [51.66031028717933]
Med-LVLM(Med-LVLM)は、医療において重要な可能性を示す。現在、知的眼科診断は、(i)データ、(ii)ベンチマーク、(iii)モデルという3つの大きな課題に直面している。我々は、前述の3つの課題に対処するEyecare Kitを提案する。
論文参考訳（メタデータ） (2025-04-18T12:09:15Z)
EyeDiff: text-to-image diffusion model improves rare eye disease diagnosis [7.884451100342276]
EyeDiffは、自然言語のプロンプトからマルチモーダル眼科画像を生成するために設計されたテキスト・ツー・イメージモデルである。 EyeDiffは8つの大規模なデータセットでトレーニングされており、10のマルチリージョンの外部データセットに適応している。
論文参考訳（メタデータ） (2024-11-15T07:30:53Z)
LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models [38.78576472811659]
大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の作成を支援する可能性がある。我々は、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。
論文参考訳（メタデータ） (2024-10-02T14:57:58Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis [20.318178211934985]
本研究では,277万点以上の眼科画像と部分テキストデータを用いた視覚言語基盤モデルであるEyeCLIPを提案する。 EyeCLIPは、眼疾患や全身疾患を含む幅広い下流のタスクに移行することができる。
論文参考訳（メタデータ） (2024-09-10T17:00:19Z)
VisionUnite: A Vision-Language Foundation Model for Ophthalmology Enhanced with Clinical Knowledge [26.93106207758859]
臨床知識によって強化された眼科の新しい視覚言語基盤モデルであるVisionUniteを紹介する。 VisionUniteは、124万の画像テキストペアからなる広範囲なデータセットで事前訓練されている。実験の結果,VisionUnite は GPT-4V や Gemini Pro などの既存の生成基盤モデルよりも優れていた。
論文参考訳（メタデータ） (2024-08-05T23:31:07Z)
EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging [13.88319807760491]
眼科画像のマルチモーダル基盤モデルであるEyeFoundを提案する。ラベルのないマルチモーダル網膜画像から一般化可能な表現を学習する。 11の眼科領域にわたる227の病院の278万枚の画像で訓練されている。
論文参考訳（メタデータ） (2024-05-18T17:03:39Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Customizing General-Purpose Foundation Models for Medical Report Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-06-09T03:02:36Z)
Artificial General Intelligence for Medical Imaging Analysis [92.3940918983821]
大規模人工知能(AGI)モデルは、様々な汎用ドメインタスクにおいて前例のない成功を収めた。これらのモデルは、医学分野固有の複雑さとユニークな特徴から生じる顕著な課題に直面している。このレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。
論文参考訳（メタデータ） (2023-06-08T18:04:13Z)
DRAC: Diabetic Retinopathy Analysis Challenge with Ultra-Wide Optical Coherence Tomography Angiography Images [51.27125547308154]
第25回医用画像コンピューティング・コンピュータ支援介入国際会議(MICCAI 2022)にともなうDRAC糖尿病網膜症解析チャレンジの企画を行った。この課題は、DR病変の分節化、画像品質評価、DRグレーディングの3つのタスクから構成される。本稿では,課題の各課題について,トップパフォーマンスのソリューションと結果の要約と分析を行う。
論文参考訳（メタデータ） (2023-04-05T12:04:55Z)
An Interpretable Multiple-Instance Approach for the Detection of referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文参考訳（メタデータ） (2021-03-02T13:14:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。