論文の概要: Masked Image Modelling for retinal OCT understanding
- arxiv url: http://arxiv.org/abs/2405.14788v1
- Date: Thu, 23 May 2024 16:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:46:53.694468
- Title: Masked Image Modelling for retinal OCT understanding
- Title(参考訳): 網膜 OCT 理解のための仮面画像モデリング
- Authors: Theodoros Pissas, Pablo Márquez-Neila, Sebastian Wolf, Martin Zinkernagel, Raphael Sznitman,
- Abstract要約: 本研究は,網膜CT画像の表現学習におけるマスク画像モデリングの有効性について検討する。
我々は、自己教師付き学習のためのシンプルでスケーラブルな方法であるMasked Autoencoders (MAE)を活用し、OCT画像の強力で汎用的な表現を得る。
- 参考スコア(独自算出の注目度): 4.639074829705531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work explores the effectiveness of masked image modelling for learning representations of retinal OCT images. To this end, we leverage Masked Autoencoders (MAE), a simple and scalable method for self-supervised learning, to obtain a powerful and general representation for OCT images by training on 700K OCT images from 41K patients collected under real world clinical settings. We also provide the first extensive evaluation for a model of OCT on a challenging battery of 6 downstream tasks. Our model achieves strong performance when fully finetuned but can also serve as a versatile frozen feature extractor for many tasks using lightweight adapters. Furthermore, we propose an extension of the MAE pretraining to fuse OCT with an auxiliary modality, namely, IR fundus images and learn a joint model for both. We demonstrate our approach improves performance on a multimodal downstream application. Our experiments utilize most publicly available OCT datasets, thus enabling future comparisons. Our code and model weights are publicly available https://github.com/TheoPis/MIM_OCT.
- Abstract(参考訳): 本研究は,網膜CT画像の表現学習におけるマスク画像モデリングの有効性について検討する。
そこで我々は,自己教師型学習のためのシンプルでスケーラブルな方法であるMasked Autoencoders (MAE) を用いて,実世界の臨床環境下で収集した41K の OCT 画像から,700K の OCT 画像をトレーニングすることにより,OCT 画像の強力な汎用表現を得る。
また,OCTのモデルに対して,下流6タスクの挑戦的なバッテリ上での大規模な評価を行った。
本モデルでは, 完全微調整時に高い性能が得られるが, 軽量アダプタを用いた多用途凍結機能抽出器としても機能する。
さらに,ORTを補助的なモダリティで融合させるためのMAEの拡張,すなわちIRファウンダス画像を学習し,両者のジョイントモデルを学ぶことを提案する。
本稿では,マルチモーダルダウンストリームアプリケーションの性能向上を実証する。
我々の実験は、最も一般に利用可能なOCTデータセットを利用し、将来の比較を可能にする。
私たちのコードとモデルの重み付けはhttps://github.com/TheoPis/MIM_OCT.comで公開されています。
関連論文リスト
- SegBook: A Simple Baseline and Cookbook for Volumetric Medical Image Segmentation [20.026663367994356]
大量のフルボディCT画像は、強力なモデルを事前訓練する機会を提供する。
これらの事前訓練されたモデルが、下流の様々な医療セグメンテーションタスクに移行できる状況は、まだ不明である。
我々は,全体CT事前訓練モデルの転写能力を評価するために,モダリティ,ターゲット,サンプルサイズが異なる87の公開データセットを収集した。
論文 参考訳(メタデータ) (2024-11-21T19:00:01Z) - UrFound: Towards Universal Retinal Foundation Models via Knowledge-Guided Masked Modeling [26.087595095138305]
UrFoundは、マルチモーダル網膜画像とドメイン知識の両方から普遍的な表現を学ぶために設計された網膜基盤モデルである。
約180万枚の網膜画像のトレーニングにより、UrFoundは最大1.6万枚の未表示画像に基づいてトレーニングされた最先端の網膜基盤モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-08-10T19:31:29Z) - Enhancing Retinal Disease Classification from OCTA Images via Active Learning Techniques [0.8035416719640156]
高齢のアメリカ人では眼疾患が一般的であり、視力や視力の低下につながることがある。
光コヒーレンス・トモグラフィ・アンギオグラフィー(OCTA)により、臨床医が網膜血管の高品質な画像を取得することができる画像技術の最近の進歩
OCTAは、一般的なOCT画像から得られる構造情報と比較して、詳細な血管画像を提供する。
論文 参考訳(メタデータ) (2024-07-21T23:24:49Z) - Contrastive Tuning: A Little Help to Make Masked Autoencoders Forget [10.290956481715387]
Masked Autoencoder Contrastive Tuning (MAE-CT)は、ラベルを使わずにオブジェクトのセマンティッククラスタを形成するようなリッチな機能をチューニングするためのシーケンシャルなアプローチである。
MaE-CTは手作りの強化に頼らず、最小限の拡張(クロップとフリップ)のみを使用しながら、しばしば最高のパフォーマンスを達成する。
MaE-CTは、リニアプローブ、k-NN、ローショット分類の精度、および教師なしクラスタリングの精度において、ImageNetで訓練された以前の自己教師手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-20T17:51:09Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - A Multi-Stage Attentive Transfer Learning Framework for Improving
COVID-19 Diagnosis [49.3704402041314]
新型コロナの診断を改善するための多段階集中移動学習フレームワークを提案する。
提案するフレームワークは、複数のソースタスクと異なるドメインのデータから知識を学習し、正確な診断モデルを訓練する3つの段階からなる。
本稿では,肺CT画像のマルチスケール表現を学習するための自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-14T01:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。