論文の概要: RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports
- arxiv url: http://arxiv.org/abs/2405.14137v1
- Date: Thu, 23 May 2024 03:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:05:09.670271
- Title: RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports
- Title(参考訳): 網膜イメージファウンデーションモデルRET-CLIPの臨床診断報告
- Authors: Jiawei Du, Jia Guo, Weihang Zhang, Shengzhu Yang, Hanruo Liu, Huiqi Li, Ningli Wang,
- Abstract要約: Vision-Language Foundationモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されている。
この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。
我々の基礎モデルであるRET-CLIPは、カラーファンドスの一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。
- 参考スコア(独自算出の注目度): 19.915033191502328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision-Language Foundation model is increasingly investigated in the fields of computer vision and natural language processing, yet its exploration in ophthalmology and broader medical applications remains limited. The challenge is the lack of labeled data for the training of foundation model. To handle this issue, a CLIP-style retinal image foundation model is developed in this paper. Our foundation model, RET-CLIP, is specifically trained on a dataset of 193,865 patients to extract general features of color fundus photographs (CFPs), employing a tripartite optimization strategy to focus on left eye, right eye, and patient level to reflect real-world clinical scenarios. Extensive experiments demonstrate that RET-CLIP outperforms existing benchmarks across eight diverse datasets spanning four critical diagnostic categories: diabetic retinopathy, glaucoma, multiple disease diagnosis, and multi-label classification of multiple diseases, which demonstrate the performance and generality of our foundation model. The sourse code and pre-trained model are available at https://github.com/sStonemason/RET-CLIP.
- Abstract(参考訳): Vision-Language Foundationのモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されているが、眼科や広範囲の医学的応用の探究は依然として限られている。
課題は、基礎モデルのトレーニングのためのラベル付きデータの欠如である。
この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。
我々の基礎モデルであるRET-CLIPは、左目、右目、患者レベルに焦点をあてて実世界の臨床シナリオを反映し、カラーファンドス写真(CFP)の一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。
RET-CLIPは糖尿病網膜症、緑内障、多発性疾患診断、多発性疾患の多ラベル分類という4つの重要な診断カテゴリにまたがる8つのデータセットで既存のベンチマークよりも優れており、基礎モデルの性能と汎用性を示している。
sourseコードと事前訓練されたモデルはhttps://github.com/sStonemason/RET-CLIPで入手できる。
関連論文リスト
- EyeCLIP: A visual-language foundation model for multi-modal ophthalmic image analysis [20.318178211934985]
本研究では,277万点以上の眼科画像と部分テキストデータを用いた視覚言語基盤モデルであるEyeCLIPを提案する。
EyeCLIPは、眼疾患や全身疾患を含む幅広い下流のタスクに移行することができる。
論文 参考訳(メタデータ) (2024-09-10T17:00:19Z) - A Disease-Specific Foundation Model Using Over 100K Fundus Images: Release and Validation for Abnormality and Multi-Disease Classification on Downstream Tasks [0.0]
基礎画像の異常を検出するための教師付き人工知能モデルであるFundus-Specific Pretrained Model(Image+Fundus)を開発した。
57,803枚の画像を用いて、この事前訓練されたモデルを開発し、様々な下流タスクにおいて優れた性能を実現した。
論文 参考訳(メタデータ) (2024-08-16T15:03:06Z) - Learning to Adapt Foundation Model DINOv2 for Capsule Endoscopy Diagnosis [36.403320243871526]
カスタマイズを容易にするローランク適応(LoRA)技術を用いたアダプティブ基礎モデル(Adapt foundation model)という簡易なアプローチを導入する。
従来の微調整方法とは異なり、我々は特定の外科領域の知識を吸収するように設計されたLoRAレイヤーを含む。
本ソリューションは,カプセル内視鏡診断に基礎モデルを適用できることを実証するものである。
論文 参考訳(メタデータ) (2024-06-15T05:21:33Z) - PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology [9.556246087301883]
我々は,Virchhowタイルの埋め込みを基盤としたH&E染色組織学のスライドレベル基盤モデルPRISMを提案する。
PRISMは、臨床報告を生成する能力を持つスライドレベルの埋め込みを生成し、いくつかのモードで使用される。
テキストプロンプトを用いて、PRISMは教師付きアグリゲータモデルに近づいたゼロショットがん検出とサブタイピング性能を達成する。
論文 参考訳(メタデータ) (2024-05-16T16:59:12Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - An Empirical Study of CLIP for Text-based Person Search [51.94743973155648]
テキストベースPerson Search (TBPS) は、自然言語による人物画像の検索を目的としている。
Contrastive Language Image Pretraining (CLIP)は、多種多様なモダル下流タスクにおいて、多種多様なモダル横断視覚言語事前訓練モデルである。
本稿では,TBPSタスクに対するCLIPの総合的研究を初めて行おうとする。
論文 参考訳(メタデータ) (2023-08-19T15:08:10Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Retinopathy of Prematurity Stage Diagnosis Using Object Segmentation and
Convolutional Neural Networks [68.96150598294072]
未熟児網膜症(英: Retinopathy of Prematurity、ROP)は、主に体重の低い未熟児に影響を及ぼす眼疾患である。
網膜の血管の増殖を招き、視力喪失を招き、最終的には網膜剥離を招き、失明を引き起こす。
近年,ディープラーニングを用いて診断を自動化する試みが盛んに行われている。
本稿では,従来のモデルの成功を基盤として,オブジェクトセグメンテーションと畳み込みニューラルネットワーク(CNN)を組み合わせた新しいアーキテクチャを開発する。
提案システムでは,まず対象分割モデルを訓練し,画素レベルでの区切り線を識別し,その結果のマスクを追加の"カラー"チャネルとして付加する。
論文 参考訳(メタデータ) (2020-04-03T14:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。