論文の概要: HybridMIM: A Hybrid Masked Image Modeling Framework for 3D Medical Image
Segmentation
- arxiv url: http://arxiv.org/abs/2303.10333v1
- Date: Sat, 18 Mar 2023 04:43:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 20:04:55.749003
- Title: HybridMIM: A Hybrid Masked Image Modeling Framework for 3D Medical Image
Segmentation
- Title(参考訳): HybridMIM: 3次元医用画像分割のためのハイブリッドマスク画像モデリングフレームワーク
- Authors: Zhaohu Xing, Lei Zhu, Lequan Yu, Zhiheng Xing, Liang Wan
- Abstract要約: HybridMIMは3次元医用画像セグメンテーションのためのマスク付き画像モデリングに基づく新しいハイブリッド自己教師型学習手法である。
医用画像の意味情報を3段階に分けて学習し,1)3次元画像の重要な内容を再構成する部分領域予測を行うことにより,トレーニング前の時間負担を大幅に軽減する。
提案するフレームワークは,エンコーダバックボーンとしてCNNとトランスフォーマーの両方をサポートするとともに,イメージセグメンテーションのためのデコーダの事前トレーニングも可能である。
- 参考スコア(独自算出の注目度): 29.15746532186427
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Masked image modeling (MIM) with transformer backbones has recently been
exploited as a powerful self-supervised pre-training technique. The existing
MIM methods adopt the strategy to mask random patches of the image and
reconstruct the missing pixels, which only considers semantic information at a
lower level, and causes a long pre-training time.This paper presents HybridMIM,
a novel hybrid self-supervised learning method based on masked image modeling
for 3D medical image segmentation.Specifically, we design a two-level masking
hierarchy to specify which and how patches in sub-volumes are masked,
effectively providing the constraints of higher level semantic information.
Then we learn the semantic information of medical images at three levels,
including:1) partial region prediction to reconstruct key contents of the 3D
image, which largely reduces the pre-training time burden (pixel-level); 2)
patch-masking perception to learn the spatial relationship between the patches
in each sub-volume (region-level).and 3) drop-out-based contrastive learning
between samples within a mini-batch, which further improves the generalization
ability of the framework (sample-level). The proposed framework is versatile to
support both CNN and transformer as encoder backbones, and also enables to
pre-train decoders for image segmentation. We conduct comprehensive experiments
on four widely-used public medical image segmentation datasets, including
BraTS2020, BTCV, MSD Liver, and MSD Spleen. The experimental results show the
clear superiority of HybridMIM against competing supervised methods, masked
pre-training approaches, and other self-supervised methods, in terms of
quantitative metrics, timing performance and qualitative observations. The
codes of HybridMIM are available at https://github.com/ge-xing/HybridMIM
- Abstract(参考訳): トランスフォーマーバックボーンを用いたマスク画像モデリング(mim)は、近年、強力な自己教師付き事前学習技術として活用されている。
The existing MIM methods adopt the strategy to mask random patches of the image and reconstruct the missing pixels, which only considers semantic information at a lower level, and causes a long pre-training time.This paper presents HybridMIM, a novel hybrid self-supervised learning method based on masked image modeling for 3D medical image segmentation.Specifically, we design a two-level masking hierarchy to specify which and how patches in sub-volumes are masked, effectively providing the constraints of higher level semantic information.
そして, 医用画像の意味情報を3段階に分けて学習する。1) 3次元画像の重要内容を再構成する部分領域予測により, トレーニング前の時間負担(ピクセルレベル)を大幅に削減する。
2) 各サブボリューム(地域レベル)のパッチ間の空間的関係を学習するためのパッチマスキング知覚。
そして
3)ミニバッチ内のサンプル間のコントラスト学習により,フレームワークの一般化能力(サンプルレベル)が向上する。
提案するフレームワークは,エンコーダバックボーンとしてCNNとトランスフォーマーの両方をサポートするとともに,イメージセグメンテーションのためのデコーダの事前トレーニングも可能である。
我々は,BraTS2020,BTCV,MSD Liver,MSD Spleenを含む,広く利用されている4つの医用画像セグメンテーションデータセットについて総合実験を行った。
実験結果から,HybridMIMは,定量測定,タイミング性能,定性観察の観点から,競合する教師付き手法,マスク付き事前学習手法,その他の自己監督手法に対して明確な優位性を示した。
hybridmimのコードはhttps://github.com/ge-xing/hybridmimで入手できる。
関連論文リスト
- HySparK: Hybrid Sparse Masking for Large Scale Medical Image Pre-Training [21.444098313697044]
本稿では,マスク画像モデリングに基づく生成前トレーニング戦略を提案し,医療画像の大規模事前トレーニングに応用する。
我々は,高密度なマルチスケール特徴再構成を実現するために,スキップ接続を備えた単純な階層型デコーダを用いる。
論文 参考訳(メタデータ) (2024-08-11T16:31:39Z) - Enhanced Self-supervised Learning for Multi-modality MRI Segmentation and Classification: A Novel Approach Avoiding Model Collapse [6.3467517115551875]
多モードMRI(Multi-modality magnetic resonance imaging)は、コンピュータ支援診断のための補完的な情報を提供する。
従来のディープラーニングアルゴリズムは、病変をセグメント化し、磁気共鳴画像で疾患を分類する特定の解剖学的構造を特定するのに適している。
自己教師付き学習(SSL)は、事前学習によりラベル付きデータから特徴表現を効果的に学習することができ、自然画像解析に有効であることが示されている。
ほとんどのSSLメソッドはマルチモードMRIの類似性を無視し、モデルが崩壊する。
ハイブリッドマスクパターン(HMP)とピラミッドバーローツイン(PBT)を組み合わせた多モードMRIマスク自動エンコーダの確立と検証を行った。
論文 参考訳(メタデータ) (2024-07-15T01:11:30Z) - MiM: Mask in Mask Self-Supervised Pre-Training for 3D Medical Image Analysis [9.227314308722047]
Mask AutoEncoder (MAE) for feature pre-trainingは、様々な医療ビジョンタスクにViTの可能性を解き放つことができる。
本研究では,3次元医用画像の事前学習フレームワークであるMask in Mask(MiM)を提案する。
論文 参考訳(メタデータ) (2024-04-24T01:14:33Z) - SM2C: Boost the Semi-supervised Segmentation for Medical Image by using Meta Pseudo Labels and Mixed Images [13.971120210536995]
医用画像のセマンティックな特徴を学習する能力を向上させるために,SM2C(Scaling-up Mix with Multi-Class)を導入した。
セグメンテーションオブジェクトの形状を多様化し、各サンプル内の意味情報を豊かにすることにより、SM2Cはそのポテンシャルを示す。
提案したフレームワークは、最先端のフレームワークよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-24T04:39:40Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - PCRLv2: A Unified Visual Information Preservation Framework for
Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。
また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。
提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文 参考訳(メタデータ) (2023-01-02T17:47:27Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。