論文の概要: EndoDINO: A Foundation Model for GI Endoscopy
- arxiv url: http://arxiv.org/abs/2501.05488v1
- Date: Wed, 08 Jan 2025 18:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:26:44.253502
- Title: EndoDINO: A Foundation Model for GI Endoscopy
- Title(参考訳): 血管内視鏡の基礎モデルとしてのエンドディーノ
- Authors: Patrick Dermyer, Angad Kalra, Matt Schwartz,
- Abstract要約: 本稿では,GI内視鏡タスクの基礎モデルであるEndoDinoについて述べる。
100Kから10Mのキュレートされた画像のデータセットを用いて,1B,307M,86MパラメータのViTモデルを事前訓練した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this work, we present EndoDINO, a foundation model for GI endoscopy tasks that achieves strong generalizability by pre-training on a well-curated image dataset sampled from the largest known GI endoscopy video dataset in the literature. Specifically, we pre-trained ViT models with 1B, 307M, and 86M parameters using datasets ranging from 100K to 10M curated images. Using EndoDINO as a frozen feature encoder, we achieved state-of-the-art performance in anatomical landmark classification, polyp segmentation, and Mayo endoscopic scoring (MES) for ulcerative colitis with only simple decoder heads.
- Abstract(参考訳): 本研究は,GI内視鏡映像データセットから抽出した画像データセットを事前学習することで,GI内視鏡タスクの基礎モデルであるEndoDinoについて述べる。
具体的には、100Kから10Mのキュレートされた画像のデータセットを用いて、1B,307M,86Mのパラメータを持つViTモデルを事前訓練した。
凍結型特徴エンコーダとしてエンドディーノを用い, 単純デコーダ頭部のみの潰瘍性大腸炎に対して, 解剖学的ランドマーク分類, ポリープ分画, マヨ内視鏡検査(MES)を施行した。
関連論文リスト
- Integrating Deep Feature Extraction and Hybrid ResNet-DenseNet Model for Multi-Class Abnormality Detection in Endoscopic Images [0.9374652839580183]
本研究の目的は、血管拡張症、出血、潰瘍を含む10種類のGI異常分類の同定を自動化することである。
提案したモデルは、よく構造化されたデータセットで全体の94%の精度を達成する。
論文 参考訳(メタデータ) (2024-10-24T06:10:31Z) - Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy [0.024999074238880488]
ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。
ビデオカプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供することで、消化管内視鏡(GIE)の診断を変換した。
しかし、そのポテンシャルは、画像処理中に生成される画像の量によって制限されており、それは6~8時間で最大100万枚の画像を生成することができる。
論文 参考訳(メタデータ) (2024-10-21T22:52:25Z) - A novel open-source ultrasound dataset with deep learning benchmarks for
spinal cord injury localization and anatomical segmentation [1.02101998415327]
ブタ脊髄の矢状切片からなる10,223モード(Bモード)画像の超音波データセットを提案する。
損傷部位をローカライズするために,いくつかの最先端オブジェクト検出アルゴリズムの性能指標をベンチマークした。
ヒトの超音波脊髄画像におけるセグメンテーションモデルのゼロショット一般化能力を評価する。
論文 参考訳(メタデータ) (2024-09-24T20:22:59Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - Learning to Adapt Foundation Model DINOv2 for Capsule Endoscopy Diagnosis [36.403320243871526]
カスタマイズを容易にするローランク適応(LoRA)技術を用いたアダプティブ基礎モデル(Adapt foundation model)という簡易なアプローチを導入する。
従来の微調整方法とは異なり、我々は特定の外科領域の知識を吸収するように設計されたLoRAレイヤーを含む。
本ソリューションは,カプセル内視鏡診断に基礎モデルを適用できることを実証するものである。
論文 参考訳(メタデータ) (2024-06-15T05:21:33Z) - TotalSegmentator MRI: Sequence-Independent Segmentation of 59 Anatomical Structures in MR images [62.53931644063323]
本研究では,TotalSegmentatorをMR画像に拡張した。
このデータセットに基づいてnnU-Netセグメンテーションアルゴリズムを訓練し、類似度係数(Dice)を計算し、モデルの性能を評価した。
このモデルは、他の2つの公開セグメンテーションモデル(Dice score 0.824 vs 0.762; p0.001 and 0.762 versus 0.542; p)を大きく上回った。
論文 参考訳(メタデータ) (2024-05-29T20:15:54Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Kvasir-Instrument: Diagnostic and therapeutic tool segmentation dataset
in gastrointestinal endoscopy [1.7579113628094125]
消化器疾患(GI)は外科的ツールを用いて定期的にスクリーニングされ、生検され、切除される。
このデータセットは590ドルの注釈付きフレームで構成されており、スナレス、バルーン、生検などのGIプロシージャツールを含んでいる。
論文 参考訳(メタデータ) (2020-10-23T18:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。