論文の概要: RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports
- arxiv url: http://arxiv.org/abs/2405.14137v2
- Date: Mon, 19 Aug 2024 12:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 02:38:38.206145
- Title: RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports
- Title(参考訳): 網膜イメージファウンデーションモデルRET-CLIPの臨床診断報告
- Authors: Jiawei Du, Jia Guo, Weihang Zhang, Shengzhu Yang, Hanruo Liu, Huiqi Li, Ningli Wang,
- Abstract要約: Vision-Language Foundationモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されている。
この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。
我々の基礎モデルであるRET-CLIPは、カラーファンドスの一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。
- 参考スコア(独自算出の注目度): 19.915033191502328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision-Language Foundation model is increasingly investigated in the fields of computer vision and natural language processing, yet its exploration in ophthalmology and broader medical applications remains limited. The challenge is the lack of labeled data for the training of foundation model. To handle this issue, a CLIP-style retinal image foundation model is developed in this paper. Our foundation model, RET-CLIP, is specifically trained on a dataset of 193,865 patients to extract general features of color fundus photographs (CFPs), employing a tripartite optimization strategy to focus on left eye, right eye, and patient level to reflect real-world clinical scenarios. Extensive experiments demonstrate that RET-CLIP outperforms existing benchmarks across eight diverse datasets spanning four critical diagnostic categories: diabetic retinopathy, glaucoma, multiple disease diagnosis, and multi-label classification of multiple diseases, which demonstrate the performance and generality of our foundation model. The sourse code and pre-trained model are available at https://github.com/sStonemason/RET-CLIP.
- Abstract(参考訳): Vision-Language Foundationのモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されているが、眼科や広範囲の医学的応用の探究は依然として限られている。
課題は、基礎モデルのトレーニングのためのラベル付きデータの欠如である。
この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。
我々の基礎モデルであるRET-CLIPは、左目、右目、患者レベルに焦点をあてて実世界の臨床シナリオを反映し、カラーファンドス写真(CFP)の一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。
RET-CLIPは糖尿病網膜症、緑内障、多発性疾患診断、多発性疾患の多ラベル分類という4つの重要な診断カテゴリにまたがる8つのデータセットで既存のベンチマークよりも優れており、基礎モデルの性能と汎用性を示している。
sourseコードと事前訓練されたモデルはhttps://github.com/sStonemason/RET-CLIPで入手できる。
関連論文リスト
- Fairness Analysis of CLIP-Based Foundation Models for X-Ray Image Classification [15.98427699337596]
X線画像分類に応用したCLIP様モデルの包括的公平性解析を行う。
我々は,ゼロショット推論と様々な微調整技術を用いて,多様な患者集団と疾患カテゴリーにおけるパフォーマンスと公平性を評価した。
論文 参考訳(メタデータ) (2025-01-31T12:23:50Z) - MultiEYE: Dataset and Benchmark for OCT-Enhanced Retinal Disease Recognition from Fundus Images [4.885485496458059]
眼疾患診断用マルチモーダル・マルチクラスデータセットであるMultiEYEについて述べる。
OCT画像から疾患関連知識を抽出するためのOCT支援概念蒸留アプローチ(OCT-CoDA)を提案する。
提案するOCT-CoDAは,臨床応用の可能性が高く,顕著な結果と解釈可能性を示した。
論文 参考訳(メタデータ) (2024-12-12T16:08:43Z) - Learning to Adapt Foundation Model DINOv2 for Capsule Endoscopy Diagnosis [36.403320243871526]
カスタマイズを容易にするローランク適応(LoRA)技術を用いたアダプティブ基礎モデル(Adapt foundation model)という簡易なアプローチを導入する。
従来の微調整方法とは異なり、我々は特定の外科領域の知識を吸収するように設計されたLoRAレイヤーを含む。
本ソリューションは,カプセル内視鏡診断に基礎モデルを適用できることを実証するものである。
論文 参考訳(メタデータ) (2024-06-15T05:21:33Z) - PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology [9.556246087301883]
我々は,Virchhowタイルの埋め込みを基盤としたH&E染色組織学のスライドレベル基盤モデルPRISMを提案する。
PRISMは、臨床報告を生成する能力を持つスライドレベルの埋め込みを生成し、いくつかのモードで使用される。
テキストプロンプトを用いて、PRISMは教師付きアグリゲータモデルに近づいたゼロショットがん検出とサブタイピング性能を達成する。
論文 参考訳(メタデータ) (2024-05-16T16:59:12Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - An Empirical Study of CLIP for Text-based Person Search [51.94743973155648]
テキストベースPerson Search (TBPS) は、自然言語による人物画像の検索を目的としている。
Contrastive Language Image Pretraining (CLIP)は、多種多様なモダル下流タスクにおいて、多種多様なモダル横断視覚言語事前訓練モデルである。
本稿では,TBPSタスクに対するCLIPの総合的研究を初めて行おうとする。
論文 参考訳(メタデータ) (2023-08-19T15:08:10Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Retinopathy of Prematurity Stage Diagnosis Using Object Segmentation and
Convolutional Neural Networks [68.96150598294072]
未熟児網膜症(英: Retinopathy of Prematurity、ROP)は、主に体重の低い未熟児に影響を及ぼす眼疾患である。
網膜の血管の増殖を招き、視力喪失を招き、最終的には網膜剥離を招き、失明を引き起こす。
近年,ディープラーニングを用いて診断を自動化する試みが盛んに行われている。
本稿では,従来のモデルの成功を基盤として,オブジェクトセグメンテーションと畳み込みニューラルネットワーク(CNN)を組み合わせた新しいアーキテクチャを開発する。
提案システムでは,まず対象分割モデルを訓練し,画素レベルでの区切り線を識別し,その結果のマスクを追加の"カラー"チャネルとして付加する。
論文 参考訳(メタデータ) (2020-04-03T14:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。