論文の概要: Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy
- arxiv url: http://arxiv.org/abs/2410.21302v1
- Date: Mon, 21 Oct 2024 22:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 07:21:58.723031
- Title: Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy
- Title(参考訳): 消化器内視鏡における医用画像分類のための自己監督基礎モデルのドメイン適応型事前トレーニング
- Authors: Marcel Roth, Micha V. Nowak,
- Abstract要約: ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。
ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。
しかし、そのポテンシャルは、画像処理中に生成される画像の量によって制限されており、それは6~8時間で最大100万枚の画像を生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Video capsule endoscopy has transformed gastrointestinal endoscopy (GIE) diagnostics by offering a non-invasive method for capturing detailed images of the gastrointestinal tract, enabling early disease detection. However, its potential is limited by the sheer volume of images generated during the imaging procedure, which can take anywhere from 6-8 hours and often produce up to 1 million images, necessitating automated analysis. Additionally, the variability of these images, combined with the need for expert annotations and the scarcity of large, high-quality labeled datasets, constrains the effectiveness of current medical image analysis models. To address this, we introduce a novel large gastrointestinal endoscopy dataset, called EndoExtend24, created by merging and re-stratifying the train/test splits of ten existing public and private datasets, ensuring no overlap of patient data across splits. EndoExtend24 includes over 226,000 labeled images, as well as dynamic class mappings, which allow unified training across datasets with differing labeling granularity, supporting up to 123 distinct pathological findings. Further, we propose to leverage domain adaptive pre-training of foundation models in computer vision trained with self-supervision on generic image data, to adapt them to the task of GIE medical diagnosis. Specifically, the EVA-02 model, which is based on the vision transformer architecture and was trained on ImageNet-22k with masked image modeling (using EVA-CLIP as a MIM teacher), is pre-trained on the novel EndoExtend24 dataset to achieve domain adaptation, and finally trained on the Capsule Endoscopy 2024 Challenge dataset. Experimental results show promising results on the challenge validation set, with an AUC Macro score of 0.993 and a balanced accuracy of 89.3%.
- Abstract(参考訳): ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供し、早期の疾患検出を可能にすることによって、消化管内視鏡(GIE)の診断を変革した。
しかし、そのポテンシャルは、画像処理中に生成される画像の量によって制限されており、それは6~8時間かかることができ、しばしば100万枚の画像を生成することができ、自動解析を必要とする。
さらに、これらの画像の多様性は、専門家のアノテーションの必要性や、大規模で高品質なラベル付きデータセットの不足と相まって、現在の医用画像分析モデルの有効性を制約している。
そこで我々は,既存の10のパブリックデータセットとプライベートデータセットのトレイン/テストスプリットをマージし,再ストラテジすることで,患者データの重複を解消する,EndoExtend24という新しい大規模な消化管内視鏡データセットを紹介した。
EndoExtend24には226,000以上のラベル付きイメージと動的クラスマッピングが含まれている。
さらに,汎用画像データに基づく自己監督で訓練されたコンピュータビジョンにおける基礎モデルのドメイン適応型事前学習を活用し,GIE診断の課題に適応させることを提案する。
具体的には、ビジョントランスフォーマーアーキテクチャをベースとして、マスク付きイメージモデリング(MIMの教師としてEVA-CLIPを使用)でImageNet-22kでトレーニングされたEVA-02モデルは、ドメイン適応を実現するための新しいEndoExtend24データセットで事前トレーニングされ、最終的にCapsule Endoscopy 2024 Challengeデータセットでトレーニングされる。
実験結果は、AUCマクロスコア0.993、バランスの取れた精度89.3%という、挑戦検証セットの有望な結果を示している。
関連論文リスト
- EndoDINO: A Foundation Model for GI Endoscopy [0.0]
本稿では,GI内視鏡タスクの基礎モデルであるEndoDinoについて述べる。
100Kから10Mのキュレートされた画像のデータセットを用いて,1B,307M,86MパラメータのViTモデルを事前訓練した。
論文 参考訳(メタデータ) (2025-01-08T18:57:05Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - UIT-Saviors at MEDVQA-GI 2023: Improving Multimodal Learning with Image
Enhancement for Gastrointestinal Visual Question Answering [0.0]
ImageCLEFmed-MEDVQA-GI-2023は、消化管領域で視覚的質問応答タスクを実行した。
マルチモーダルアーキテクチャは、BERTエンコーダと、畳み込みニューラルネットワーク(CNN)とTransformerアーキテクチャに基づいた、さまざまな事前訓練されたビジョンモデルによって構成される。
BERT+BEiT融合と画像強調の利点を生かして、最大87.25%の精度と91.85%のF1スコアを実現する。
論文 参考訳(メタデータ) (2023-07-06T05:22:20Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - An Ensemble Method to Automatically Grade Diabetic Retinopathy with
Optical Coherence Tomography Angiography Images [4.640835690336653]
糖尿病網膜症解析チャレンジ(DRAC)2022から得られる糖尿病網膜症(DR)画像を自動的に評価するアンサンブル法を提案する。
まず、最先端の分類ネットワークを採用し、利用可能なデータセットの異なる分割でUW-OCTA画像のグレードをトレーニングする。
最終的に、25のモデルを取得し、そのうち上位16のモデルを選択し、アンサンブルして最終的な予測を生成する。
論文 参考訳(メタデータ) (2022-12-12T22:06:47Z) - Optimising Chest X-Rays for Image Analysis by Identifying and Removing
Confounding Factors [49.005337470305584]
新型コロナウイルス(COVID-19)のパンデミック(パンデミック)の間、新型コロナウイルス(COVID-19)の診断のための緊急設定で実施される画像の量は、臨床用CXRの取得が広範囲に及んだ。
公開データセット内の臨床的に取得されたCXRの変動品質は、アルゴリズムのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、新型コロナウイルスの胸部X線データセットを前処理し、望ましくないバイアスを取り除くための、シンプルで効果的なステップワイズアプローチを提案する。
論文 参考訳(メタデータ) (2022-08-22T13:57:04Z) - A Novel Automated Classification and Segmentation for COVID-19 using 3D
CT Scans [5.5957919486531935]
新型コロナウイルス(COVID-19)による肺のCT画像では、地上ガラスの濁度が専門的な診断を必要とする最も一般的な発見である。
一部の研究者は、専門知識の欠如による専門的診断専門医の代替となる、関連するDLモデルを提案する。
肺病変の分類では, 新型コロナウイルス, 肺炎, 正常の3種類で94.52%の精度が得られた。
論文 参考訳(メタデータ) (2022-08-04T22:14:18Z) - FetReg2021: A Challenge on Placental Vessel Segmentation and
Registration in Fetoscopy [52.3219875147181]
2-Twin Transfusion Syndrome (TTTS) に対するレーザー光凝固法が広く採用されている。
このプロシージャは、視野が限られたこと、フェトスコープの操作性が悪いこと、視認性が悪いこと、照明の変動性のために特に困難である。
コンピュータ支援介入(CAI)は、シーン内の重要な構造を特定し、ビデオモザイクを通して胎児の視野を広げることで、外科医に意思決定支援と文脈認識を提供する。
7つのチームがこの課題に参加し、そのモデルパフォーマンスを、6フェットから658ピクセルの注釈付き画像の見当たらないテストデータセットで評価した。
論文 参考訳(メタデータ) (2022-06-24T23:44:42Z) - Learning from Pseudo Lesion: A Self-supervised Framework for COVID-19
Diagnosis [22.54540093657541]
コロナウイルス感染症2019(COVID-19)は、2019年12月の報告以来、世界中で急速に拡大している。
近年、ディープラーニングに基づくアプローチは、無数の画像認識タスクにおいて顕著なパフォーマンスを示している。
本報告では, 疑似病変の発生と回復に基づく自己指導型事前訓練法を提案する。
論文 参考訳(メタデータ) (2021-06-23T11:21:30Z) - Co-Heterogeneous and Adaptive Segmentation from Multi-Source and
Multi-Phase CT Imaging Data: A Study on Pathological Liver and Lesion
Segmentation [48.504790189796836]
我々は,新しいセグメンテーション戦略,コヘテロジネティック・アダプティブセグメンテーション(CHASe)を提案する。
本稿では,外見に基づく半スーパービジョン,マスクに基づく対向ドメイン適応,擬似ラベルを融合した多目的フレームワークを提案する。
CHASeは4.2% sim 9.4%$の範囲で、病理的な肝臓マスクDice-Sorensen係数をさらに改善することができる。
論文 参考訳(メタデータ) (2020-05-27T06:58:39Z) - Residual Attention U-Net for Automated Multi-Class Segmentation of
COVID-19 Chest CT Images [46.844349956057776]
新型コロナウイルス感染症(COVID-19)は世界中で急速に広がり、公衆衛生や経済に大きな影響を及ぼしている。
新型コロナウイルスによる肺感染症を効果的に定量化する研究はいまだにない。
複数の新型コロナウイルス感染症領域の自動セグメンテーションのための新しいディープラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-12T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。