論文の概要: Foundation Model for Endoscopy Video Analysis via Large-scale
Self-supervised Pre-train
- arxiv url: http://arxiv.org/abs/2306.16741v1
- Date: Thu, 29 Jun 2023 07:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:17:30.411051
- Title: Foundation Model for Endoscopy Video Analysis via Large-scale
Self-supervised Pre-train
- Title(参考訳): 大規模自己監視プリトレインによる内視鏡映像解析の基礎モデル
- Authors: Zhao Wang, Chang Liu, Shaoting Zhang, Qi Dou
- Abstract要約: 本研究では,大規模な内視鏡映像データを用いた基礎モデルであるEndo-FMを提案する。
我々は,空間的および時間的次元にわたる局所的および大域的長期的依存関係をキャプチャするビデオトランスフォーマーを構築した。
私たちのデータセット全体は、最大500万フレームの33Kビデオクリップで構成されており、さまざまなプロトコル、対象臓器、疾患タイプが含まれています。
- 参考スコア(独自算出の注目度): 26.955995621862147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have exhibited remarkable success in various applications,
such as disease diagnosis and text report generation. To date, a foundation
model for endoscopic video analysis is still lacking. In this paper, we propose
Endo-FM, a foundation model specifically developed using massive endoscopic
video data. First, we build a video transformer, which captures both local and
global long-range dependencies across spatial and temporal dimensions. Second,
we pre-train our transformer model using global and local views via a
self-supervised manner, aiming to make it robust to spatial-temporal variations
and discriminative across different scenes. To develop the foundation model, we
construct a large-scale endoscopy video dataset by combining 9 publicly
available datasets and a privately collected dataset from Baoshan Branch of
Renji Hospital in Shanghai, China. Our dataset overall consists of over 33K
video clips with up to 5 million frames, encompassing various protocols, target
organs, and disease types. Our pre-trained Endo-FM can be easily adopted for a
given downtream task via fine-tuning by serving as the backbone. With
experiments on 3 different types of downstream tasks, including classification,
segmentation, and detection, our Endo-FM surpasses the current state-of-the-art
self-supervised pre-training and adapter-based transfer learning methods by a
significant margin, such as VCL (3.1% F1 for classification, 4.8% Dice for
segmentation, and 5.5% F1 for detection) and ST-Adapter (5.9% F1 for
classification, 9.6% Dice for segmentation, and 9.9% F1 for detection). Code,
datasets, and models are released at https://github.com/med-air/Endo-FM.
- Abstract(参考訳): 基礎モデルは、疾患診断やテキストレポート生成など、様々な応用で顕著な成功を収めている。
現在まで,内視鏡的映像解析の基礎モデルが欠落している。
本稿では,大規模な内視鏡映像データを用いた基礎モデルであるEndo-FMを提案する。
まず,空間的および時間的次元にまたがる局所的および大域的長距離依存性をキャプチャするビデオトランスフォーマーを構築する。
第2に,グローバルおよびローカルビューを用いたトランスフォーマーモデルの事前学習を行い,空間的・時間的変動に頑健にし,異なる場面で識別できるようにする。
基礎モデルを開発するために,上海の蓮華病院の青山支部から収集した9つの公開データセットとプライベートデータセットを組み合わせることで,大規模内視鏡映像データセットを構築した。
私たちのデータセット全体は、最大500万フレームの33Kビデオクリップで構成されており、さまざまなプロトコル、対象臓器、疾患タイプが含まれています。
トレーニング済みのEndo-FMは、バックボーンとして機能し、微調整により、所定のダウンストリームタスクに容易に適用できる。
分類,セグメンテーション,検出を含む3種類のダウンストリームタスクの実験により,私たちのEndo-FMは,VCL(3.1% F1,4.8% Dice,5.5% F1,5.9% F1)やST-Adapter(5.9% F1,9.6% Dice,9.9% F1など,最先端の自己指導型事前学習およびアダプタベースのトランスファー学習手法をはるかに超えた。
コード、データセット、モデルはhttps://github.com/med-air/Endo-FMでリリースされている。
関連論文リスト
- vesselFM: A Foundation Model for Universal 3D Blood Vessel Segmentation [2.167228869154864]
本稿では3次元血管セグメンテーションの幅広い課題に特化して設計された基盤モデルである vesselFM を提案する。
以前のモデルとは異なり、 vesselFM は見当たらない領域に懸命に一般化することができる。
論文 参考訳(メタデータ) (2024-11-26T12:44:42Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Building Universal Foundation Models for Medical Image Analysis with
Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。
55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。
下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文 参考訳(メタデータ) (2023-12-12T08:33:45Z) - MIS-FM: 3D Medical Image Segmentation using Foundation Models Pretrained
on a Large-Scale Unannotated Dataset [14.823114726604853]
本稿では,3次元セグメンテーションモデルを事前学習するための,VF(Volume Fusion)と呼ばれる新たな自己教師型学習戦略を提案する。
VFは、手動のアノテーションなしで自己教師付きセグメンテーションタスクとして定式化される各ボクセルの融合係数を予測するようモデルを強制する。
頭部, 頸部臓器, 胸部, 腹部臓器など, 下流領域の異なる部位を対象とする実験により, 我々の事前訓練モデルがスクラッチからトレーニングに優れていたことが判明した。
論文 参考訳(メタデータ) (2023-06-29T13:22:13Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Universal Segmentation of 33 Anatomies [19.194539991903593]
本稿では,33の解剖学的構造を普遍的に分割する単一モデルの学習手法を提案する。
我々は、複数のデータセットの結合からそのようなモデルを学び、各データセットには部分的にラベル付けされた画像が含まれている。
我々は,複数のオープンソースデータセット上でモデルを評価し,モデルが優れた一般化性能を有することを示す。
論文 参考訳(メタデータ) (2022-03-04T02:29:54Z) - Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image
Analysis [7.214195462426705]
医用画像解析のためのプロキシタスクを調整した,新たな自己教師型学習フレームワークを提案する。
5,050個のCT画像に対して,提案手法の事前学習を成功させた。
私たちのモデルは現在、MSDとBTCV両方のデータセットの公開テストリーダーボードで最先端(すなわち第1位)です。
論文 参考訳(メタデータ) (2021-11-29T18:45:20Z) - Learning Signal-Agnostic Manifolds of Neural Fields [50.066449953522685]
ニューラルネットワークを利用して、画像、形状、オーディオ、およびモーダル・オーディオヴィジュアル領域の基盤となる構造を捉える。
GEMの基底多様体を横切ることで、信号領域に新しいサンプルを生成できることが示される。
論文 参考訳(メタデータ) (2021-11-11T18:57:40Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。