Fugu-MT 論文翻訳(概要): Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy

論文の概要: Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy

arxiv url: http://arxiv.org/abs/2410.21302v2
Date: Thu, 31 Oct 2024 19:44:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.477323
Title: Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy
Title（参考訳）: 消化器内視鏡における医用画像分類のための自己監督基礎モデルのドメイン適応型事前トレーニング
Authors: Marcel Roth, Micha V. Nowak, Adrian Krenzer, Frank Puppe,
Abstract要約: ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。しかし、そのポテンシャルは、画像処理中に生成される画像の量によって制限されており、それは6～8時間で最大100万枚の画像を生成することができる。
参考スコア（独自算出の注目度）: 0.024999074238880488
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video capsule endoscopy has transformed gastrointestinal endoscopy (GIE) diagnostics by offering a non-invasive method for capturing detailed images of the gastrointestinal tract, enabling early disease detection. However, its potential is limited by the sheer volume of images generated during the imaging procedure, which can take anywhere from 6-8 hours and often produce up to 1 million images, necessitating automated analysis. Additionally, the variability of these images, combined with the need for expert annotations and the scarcity of large, high-quality labeled datasets, constrains the effectiveness of current medical image analysis models. To address this, we introduce a novel large gastrointestinal endoscopy dataset, called EndoExtend24, created by merging and re-stratifying the train/test splits of ten existing public and private datasets, ensuring no overlap of patient data across splits. EndoExtend24 includes over 226,000 labeled images, as well as dynamic class mappings, which allow unified training across datasets with differing labeling granularity, supporting up to 123 distinct pathological findings. Further, we propose to leverage domain adaptive pre-training of foundation models in computer vision trained with self-supervision on generic image data, to adapt them to the task of GIE medical diagnosis. Specifically, the EVA-02 model, which is based on the vision transformer architecture and was trained on ImageNet-22k with masked image modeling (using EVA-CLIP as a MIM teacher), is pre-trained on the novel EndoExtend24 dataset to achieve domain adaptation, and finally trained on the Capsule Endoscopy 2024 Challenge dataset. Experimental results demonstrate strong performance with an F1 score of 0.88, an improvement of about 39% over the baseline model's F1 score of 0.49. Additionally, the model achieved a macro AUC score of 0.993 and a balanced accuracy of 89.3%.
Abstract（参考訳）: ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供し、早期の疾患検出を可能にすることによって、消化管内視鏡(GIE)の診断を変革した。しかし、そのポテンシャルは、画像処理中に生成される画像の量によって制限されており、それは6～8時間かかることができ、しばしば100万枚の画像を生成することができ、自動解析を必要とする。さらに、これらの画像の多様性は、専門家のアノテーションの必要性や、大規模で高品質なラベル付きデータセットの不足と相まって、現在の医用画像分析モデルの有効性を制約している。そこで我々は,既存の10のパブリックデータセットとプライベートデータセットのトレイン/テストスプリットをマージし,再ストラテジすることで,患者データの重複を解消する,EndoExtend24という新しい大規模な消化管内視鏡データセットを紹介した。 EndoExtend24には226,000以上のラベル付きイメージと動的クラスマッピングが含まれている。さらに,汎用画像データに基づく自己監督で訓練されたコンピュータビジョンにおける基礎モデルのドメイン適応型事前学習を活用し,GIE診断の課題に適応させることを提案する。具体的には、ビジョントランスフォーマーアーキテクチャをベースとして、マスク付きイメージモデリング(MIMの教師としてEVA-CLIPを使用)でImageNet-22kでトレーニングされたEVA-02モデルは、ドメイン適応を実現するための新しいEndoExtend24データセットで事前トレーニングされ、最終的にCapsule Endoscopy 2024 Challengeデータセットでトレーニングされる。実験の結果、F1スコアは0.88で、ベースラインモデルのF1スコアは0.49で約39%向上した。さらに、このモデルはマクロAUCスコア0.993、バランスの取れた精度89.3%を達成した。

関連論文リスト

DeepGI: Explainable Deep Learning for Gastrointestinal Image Classification [0.0]
この研究は、可変照明、ゆらぎのあるカメラアングル、頻繁な画像アーティファクトなど、一般的な内視鏡的課題に直面している。最高性能のVGG16とMobileNetV2はそれぞれ96.5%の精度を達成した。このアプローチには、Grad-CAM視覚化による説明可能なAIが含まれており、モデル予測に最も影響を及ぼす画像領域の識別を可能にする。
論文参考訳（メタデータ） (2025-11-26T22:35:57Z)
GastroViT: A Vision Transformer Based Ensemble Learning Approach for Gastrointestinal Disease Classification with Grad CAM & SHAP Visualization [6.752543644823974]
本稿では,GIトラクターの内視鏡像を正確に分類するために,事前訓練された視覚変換器(ViT)のアンサンブルを提案する。注目に基づくニューラルネットワークであるViTは、トランスフォーマーアーキテクチャの変換パワーを活用することで、画像認識に革命をもたらした。提案モデルは,23種類のGI疾患の画像10,662枚を用いて,公開されているHyperKvasirデータセットを用いて評価した。
論文参考訳（メタデータ） (2025-09-30T16:44:41Z)
Federated Foundation Model for GI Endoscopy Images [7.9528382609447545]
ファンデーションモデルは汎用表現を学習することで有望なソリューションを提供する。ファンデーションモデルトレーニングは通常、広範なデータセットを必要とし、病院は大量のデータを生成するが、プライバシー制限は直接的なデータ共有を妨げている。本稿では,腹腔鏡画像の基礎モデルをトレーニングするためのFLフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-30T01:18:17Z)
Enhanced Multi-Class Classification of Gastrointestinal Endoscopic Images with Interpretable Deep Learning Model [0.7349657385817541]
本研究は,Kvasirデータセットから8000個のラベル付き内視鏡画像を用いて分類精度を向上させる新しい手法を提案する。提案したアーキテクチャは、適度なモデルの複雑さを保ちながら、データ拡張への依存をなくす。テスト精度は94.25%、精度は94.29%、リコールは94.24%である。
論文参考訳（メタデータ） (2025-03-02T08:07:50Z)
EndoDINO: A Foundation Model for GI Endoscopy [0.0]
本稿では,GI内視鏡タスクの基礎モデルであるEndoDinoについて述べる。 100Kから10Mのキュレートされた画像のデータセットを用いて,1B,307M,86MパラメータのViTモデルを事前訓練した。
論文参考訳（メタデータ） (2025-01-08T18:57:05Z)
Time-to-Event Pretraining for 3D Medical Imaging [44.46415168541444]
本稿では,3次元医用画像モデルのための事前トレーニングフレームワークである,時間とイベントの事前トレーニングを紹介する。我々は18,945個のCTスキャン(420万枚の2D画像)のデータセットと、何千ものEHR由来のタスクにまたがる時間-時間分布を用いています。提案手法は,AUROCの平均値が23.7%,HarrellのC-インデックスが29.4%向上し,結果予測が向上する。
論文参考訳（メタデータ） (2024-11-14T11:08:54Z)
Local Lesion Generation is Effective for Capsule Endoscopy Image Data Augmentation in a Limited Data Setting [0.0]
そこで我々は, 局所病変生成手法を2つ提案し, 小型医用画像データセットの増大に対処する。最初のアプローチでは、古典的な画像処理技術であるPoisson Image Editingアルゴリズムを使用して、リアルな画像合成を生成する。第2のアプローチでは、微調整されたイメージインペインティングGANを利用して、現実的な病変を合成する新しい生成手法を導入している。
論文参考訳（メタデータ） (2024-11-05T13:44:25Z)
Classification of Endoscopy and Video Capsule Images using CNN-Transformer Model [1.0994755279455526]
本研究では、トランスフォーマーと畳み込みニューラルネットワーク(CNN)の利点を組み合わせて分類性能を向上させるハイブリッドモデルを提案する。 GastroVisionデータセットでは,精度,リコール,F1スコア,精度,マシューズ相関係数(MCC)が0.8320,0.8386,0.8324,0.8386,0.8191であった。
論文参考訳（メタデータ） (2024-08-20T11:05:32Z)
ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文参考訳（メタデータ） (2023-09-03T07:55:46Z)
UIT-Saviors at MEDVQA-GI 2023: Improving Multimodal Learning with Image Enhancement for Gastrointestinal Visual Question Answering [0.0]
ImageCLEFmed-MEDVQA-GI-2023は、消化管領域で視覚的質問応答タスクを実行した。マルチモーダルアーキテクチャは、BERTエンコーダと、畳み込みニューラルネットワーク(CNN)とTransformerアーキテクチャに基づいた、さまざまな事前訓練されたビジョンモデルによって構成される。 BERT+BEiT融合と画像強調の利点を生かして、最大87.25%の精度と91.85%のF1スコアを実現する。
論文参考訳（メタデータ） (2023-07-06T05:22:20Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
An Ensemble Method to Automatically Grade Diabetic Retinopathy with Optical Coherence Tomography Angiography Images [4.640835690336653]
糖尿病網膜症解析チャレンジ(DRAC)2022から得られる糖尿病網膜症(DR)画像を自動的に評価するアンサンブル法を提案する。まず、最先端の分類ネットワークを採用し、利用可能なデータセットの異なる分割でUW-OCTA画像のグレードをトレーニングする。最終的に、25のモデルを取得し、そのうち上位16のモデルを選択し、アンサンブルして最終的な予測を生成する。
論文参考訳（メタデータ） (2022-12-12T22:06:47Z)
Optimising Chest X-Rays for Image Analysis by Identifying and Removing Confounding Factors [49.005337470305584]
新型コロナウイルス(COVID-19)のパンデミック(パンデミック)の間、新型コロナウイルス(COVID-19)の診断のための緊急設定で実施される画像の量は、臨床用CXRの取得が広範囲に及んだ。公開データセット内の臨床的に取得されたCXRの変動品質は、アルゴリズムのパフォーマンスに大きな影響を及ぼす可能性がある。我々は、新型コロナウイルスの胸部X線データセットを前処理し、望ましくないバイアスを取り除くための、シンプルで効果的なステップワイズアプローチを提案する。
論文参考訳（メタデータ） (2022-08-22T13:57:04Z)
FetReg2021: A Challenge on Placental Vessel Segmentation and Registration in Fetoscopy [52.3219875147181]
2-Twin Transfusion Syndrome (TTTS) に対するレーザー光凝固法が広く採用されている。このプロシージャは、視野が限られたこと、フェトスコープの操作性が悪いこと、視認性が悪いこと、照明の変動性のために特に困難である。コンピュータ支援介入(CAI)は、シーン内の重要な構造を特定し、ビデオモザイクを通して胎児の視野を広げることで、外科医に意思決定支援と文脈認識を提供する。 7つのチームがこの課題に参加し、そのモデルパフォーマンスを、6フェットから658ピクセルの注釈付き画像の見当たらないテストデータセットで評価した。
論文参考訳（メタデータ） (2022-06-24T23:44:42Z)
Learning from Pseudo Lesion: A Self-supervised Framework for COVID-19 Diagnosis [22.54540093657541]
コロナウイルス感染症2019(COVID-19)は、2019年12月の報告以来、世界中で急速に拡大している。近年、ディープラーニングに基づくアプローチは、無数の画像認識タスクにおいて顕著なパフォーマンスを示している。本報告では, 疑似病変の発生と回復に基づく自己指導型事前訓練法を提案する。
論文参考訳（メタデータ） (2021-06-23T11:21:30Z)
Malignancy Prediction and Lesion Identification from Clinical Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文参考訳（メタデータ） (2021-04-02T20:52:05Z)
SAG-GAN: Semi-Supervised Attention-Guided GANs for Data Augmentation on Medical Images [47.35184075381965]
本稿では,GAN(Cycle-Consistency Generative Adversarial Networks)を用いた医用画像生成のためのデータ拡張手法を提案する。提案モデルでは,正常画像から腫瘍画像を生成することができ,腫瘍画像から正常画像を生成することもできる。本研究では,従来のデータ拡張手法と合成画像を用いた分類モデルを用いて,実画像を用いた分類モデルを訓練する。
論文参考訳（メタデータ） (2020-11-15T14:01:24Z)
Co-Heterogeneous and Adaptive Segmentation from Multi-Source and Multi-Phase CT Imaging Data: A Study on Pathological Liver and Lesion Segmentation [48.504790189796836]
我々は,新しいセグメンテーション戦略,コヘテロジネティック・アダプティブセグメンテーション(CHASe)を提案する。本稿では,外見に基づく半スーパービジョン,マスクに基づく対向ドメイン適応,擬似ラベルを融合した多目的フレームワークを提案する。 CHASeは4.2% sim 9.4%$の範囲で、病理的な肝臓マスクDice-Sorensen係数をさらに改善することができる。
論文参考訳（メタデータ） (2020-05-27T06:58:39Z)
Residual Attention U-Net for Automated Multi-Class Segmentation of COVID-19 Chest CT Images [46.844349956057776]
新型コロナウイルス感染症(COVID-19)は世界中で急速に広がり、公衆衛生や経済に大きな影響を及ぼしている。新型コロナウイルスによる肺感染症を効果的に定量化する研究はいまだにない。複数の新型コロナウイルス感染症領域の自動セグメンテーションのための新しいディープラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-04-12T16:24:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。