論文の概要: Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy
- arxiv url: http://arxiv.org/abs/2410.21302v2
- Date: Thu, 31 Oct 2024 19:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:32:57.400031
- Title: Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy
- Title(参考訳): 消化器内視鏡における医用画像分類のための自己監督基礎モデルのドメイン適応型事前トレーニング
- Authors: Marcel Roth, Micha V. Nowak, Adrian Krenzer, Frank Puppe,
- Abstract要約: ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。
ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。
しかし、そのポテンシャルは、画像処理中に生成される画像の量によって制限されており、それは6~8時間で最大100万枚の画像を生成することができる。
- 参考スコア(独自算出の注目度): 0.024999074238880488
- License:
- Abstract: Video capsule endoscopy has transformed gastrointestinal endoscopy (GIE) diagnostics by offering a non-invasive method for capturing detailed images of the gastrointestinal tract, enabling early disease detection. However, its potential is limited by the sheer volume of images generated during the imaging procedure, which can take anywhere from 6-8 hours and often produce up to 1 million images, necessitating automated analysis. Additionally, the variability of these images, combined with the need for expert annotations and the scarcity of large, high-quality labeled datasets, constrains the effectiveness of current medical image analysis models. To address this, we introduce a novel large gastrointestinal endoscopy dataset, called EndoExtend24, created by merging and re-stratifying the train/test splits of ten existing public and private datasets, ensuring no overlap of patient data across splits. EndoExtend24 includes over 226,000 labeled images, as well as dynamic class mappings, which allow unified training across datasets with differing labeling granularity, supporting up to 123 distinct pathological findings. Further, we propose to leverage domain adaptive pre-training of foundation models in computer vision trained with self-supervision on generic image data, to adapt them to the task of GIE medical diagnosis. Specifically, the EVA-02 model, which is based on the vision transformer architecture and was trained on ImageNet-22k with masked image modeling (using EVA-CLIP as a MIM teacher), is pre-trained on the novel EndoExtend24 dataset to achieve domain adaptation, and finally trained on the Capsule Endoscopy 2024 Challenge dataset. Experimental results demonstrate strong performance with an F1 score of 0.88, an improvement of about 39% over the baseline model's F1 score of 0.49. Additionally, the model achieved a macro AUC score of 0.993 and a balanced accuracy of 89.3%.
- Abstract(参考訳): ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供し、早期の疾患検出を可能にすることによって、消化管内視鏡(GIE)の診断を変革した。
しかし、そのポテンシャルは、画像処理中に生成される画像の量によって制限されており、それは6~8時間かかることができ、しばしば100万枚の画像を生成することができ、自動解析を必要とする。
さらに、これらの画像の多様性は、専門家のアノテーションの必要性や、大規模で高品質なラベル付きデータセットの不足と相まって、現在の医用画像分析モデルの有効性を制約している。
そこで我々は,既存の10のパブリックデータセットとプライベートデータセットのトレイン/テストスプリットをマージし,再ストラテジすることで,患者データの重複を解消する,EndoExtend24という新しい大規模な消化管内視鏡データセットを紹介した。
EndoExtend24には226,000以上のラベル付きイメージと動的クラスマッピングが含まれている。
さらに,汎用画像データに基づく自己監督で訓練されたコンピュータビジョンにおける基礎モデルのドメイン適応型事前学習を活用し,GIE診断の課題に適応させることを提案する。
具体的には、ビジョントランスフォーマーアーキテクチャをベースとして、マスク付きイメージモデリング(MIMの教師としてEVA-CLIPを使用)でImageNet-22kでトレーニングされたEVA-02モデルは、ドメイン適応を実現するための新しいEndoExtend24データセットで事前トレーニングされ、最終的にCapsule Endoscopy 2024 Challengeデータセットでトレーニングされる。
実験の結果、F1スコアは0.88で、ベースラインモデルのF1スコアは0.49で約39%向上した。
さらに、このモデルはマクロAUCスコア0.993、バランスの取れた精度89.3%を達成した。
関連論文リスト
- Local Lesion Generation is Effective for Capsule Endoscopy Image Data Augmentation in a Limited Data Setting [0.0]
そこで我々は, 局所病変生成手法を2つ提案し, 小型医用画像データセットの増大に対処する。
最初のアプローチでは、古典的な画像処理技術であるPoisson Image Editingアルゴリズムを使用して、リアルな画像合成を生成する。
第2のアプローチでは、微調整されたイメージインペインティングGANを利用して、現実的な病変を合成する新しい生成手法を導入している。
論文 参考訳(メタデータ) (2024-11-05T13:44:25Z) - Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model [1.0994755279455526]
本研究では、トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせて分類性能を向上させるハイブリッドモデルを提案する。
GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であった。
論文 参考訳(メタデータ) (2024-08-20T11:05:32Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - UIT-Saviors at MEDVQA-GI 2023: Improving Multimodal Learning with Image
Enhancement for Gastrointestinal Visual Question Answering [0.0]
ImageCLEFmed-MEDVQA-GI-2023は、消化管領域で視覚的質問応答タスクを実行した。
マルチモーダルアーキテクチャは、BERTエンコーダと、畳み込みニューラルネットワーク(CNN)とTransformerアーキテクチャに基づいた、さまざまな事前訓練されたビジョンモデルによって構成される。
BERT+BEiT融合と画像強調の利点を生かして、最大87.25%の精度と91.85%のF1スコアを実現する。
論文 参考訳(メタデータ) (2023-07-06T05:22:20Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - An Ensemble Method to Automatically Grade Diabetic Retinopathy with
Optical Coherence Tomography Angiography Images [4.640835690336653]
糖尿病網膜症解析チャレンジ(DRAC)2022から得られる糖尿病網膜症(DR)画像を自動的に評価するアンサンブル法を提案する。
まず、最先端の分類ネットワークを採用し、利用可能なデータセットの異なる分割でUW-OCTA画像のグレードをトレーニングする。
最終的に、25のモデルを取得し、そのうち上位16のモデルを選択し、アンサンブルして最終的な予測を生成する。
論文 参考訳(メタデータ) (2022-12-12T22:06:47Z) - Learning from Pseudo Lesion: A Self-supervised Framework for COVID-19
Diagnosis [22.54540093657541]
コロナウイルス感染症2019(COVID-19)は、2019年12月の報告以来、世界中で急速に拡大している。
近年、ディープラーニングに基づくアプローチは、無数の画像認識タスクにおいて顕著なパフォーマンスを示している。
本報告では, 疑似病変の発生と回復に基づく自己指導型事前訓練法を提案する。
論文 参考訳(メタデータ) (2021-06-23T11:21:30Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z) - SAG-GAN: Semi-Supervised Attention-Guided GANs for Data Augmentation on
Medical Images [47.35184075381965]
本稿では,GAN(Cycle-Consistency Generative Adversarial Networks)を用いた医用画像生成のためのデータ拡張手法を提案する。
提案モデルでは,正常画像から腫瘍画像を生成することができ,腫瘍画像から正常画像を生成することもできる。
本研究では,従来のデータ拡張手法と合成画像を用いた分類モデルを用いて,実画像を用いた分類モデルを訓練する。
論文 参考訳(メタデータ) (2020-11-15T14:01:24Z) - Co-Heterogeneous and Adaptive Segmentation from Multi-Source and
Multi-Phase CT Imaging Data: A Study on Pathological Liver and Lesion
Segmentation [48.504790189796836]
我々は,新しいセグメンテーション戦略,コヘテロジネティック・アダプティブセグメンテーション(CHASe)を提案する。
本稿では,外見に基づく半スーパービジョン,マスクに基づく対向ドメイン適応,擬似ラベルを融合した多目的フレームワークを提案する。
CHASeは4.2% sim 9.4%$の範囲で、病理的な肝臓マスクDice-Sorensen係数をさらに改善することができる。
論文 参考訳(メタデータ) (2020-05-27T06:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。