論文の概要: AdvMIM: Adversarial Masked Image Modeling for Semi-Supervised Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2506.20563v1
- Date: Wed, 25 Jun 2025 16:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.830114
- Title: AdvMIM: Adversarial Masked Image Modeling for Semi-Supervised Medical Image Segmentation
- Title(参考訳): AdvMIM:半監督医用画像セグメンテーションのための逆マズード画像モデリング
- Authors: Lei Zhu, Jun Zhou, Rick Siow Mong Goh, Yong Liu,
- Abstract要約: Vision Transformerは最近、医療画像のセグメンテーションタスクで大きな人気を集めている。
Transformerは大量のラベル付きデータを有効にする必要がある。
変圧器を用いた半教師あり学習における鍵となる課題は、十分な監督信号の欠如にある。
- 参考スコア(独自算出の注目度): 27.35164449801058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer has recently gained tremendous popularity in medical image segmentation task due to its superior capability in capturing long-range dependencies. However, transformer requires a large amount of labeled data to be effective, which hinders its applicability in annotation scarce semi-supervised learning scenario where only limited labeled data is available. State-of-the-art semi-supervised learning methods propose combinatorial CNN-Transformer learning to cross teach a transformer with a convolutional neural network, which achieves promising results. However, it remains a challenging task to effectively train the transformer with limited labeled data. In this paper, we propose an adversarial masked image modeling method to fully unleash the potential of transformer for semi-supervised medical image segmentation. The key challenge in semi-supervised learning with transformer lies in the lack of sufficient supervision signal. To this end, we propose to construct an auxiliary masked domain from original domain with masked image modeling and train the transformer to predict the entire segmentation mask with masked inputs to increase supervision signal. We leverage the original labels from labeled data and pseudo-labels from unlabeled data to learn the masked domain. To further benefit the original domain from masked domain, we provide a theoretical analysis of our method from a multi-domain learning perspective and devise a novel adversarial training loss to reduce the domain gap between the original and masked domain, which boosts semi-supervised learning performance. We also extend adversarial masked image modeling to CNN network. Extensive experiments on three public medical image segmentation datasets demonstrate the effectiveness of our method, where our method outperforms existing methods significantly. Our code is publicly available at https://github.com/zlheui/AdvMIM.
- Abstract(参考訳): Vision Transformerは最近、長距離依存関係をキャプチャする能力に優れており、医用画像のセグメンテーションタスクで大いに人気を集めている。
しかし、トランスフォーマーは大量のラベル付きデータを有効化する必要があるため、限定されたラベル付きデータしか利用できない半教師付き学習シナリオにおいて、アノテーションの適用性を妨げている。
最先端の半教師付き学習手法は、畳み込みニューラルネットワークでトランスフォーマーを教えるために、組合せCNN-Transformer学習を提案し、有望な結果を得る。
しかし、ラベル付きデータしか持たないトランスフォーマーを効果的に訓練することは、依然として難しい課題である。
本稿では,半教師型医用画像セグメンテーションのためのトランスフォーマの可能性を完全に解き放つための,対向型マスク画像モデリング手法を提案する。
変圧器を用いた半教師あり学習における鍵となる課題は、十分な監督信号の欠如にある。
そこで本研究では,マスク付き画像モデリングによる元ドメインからの補助マスク領域の構築と,マスク付き入力によるセグメント化マスク全体の予測と監視信号の増大について,トランスフォーマを訓練する。
ラベル付きデータからの原ラベルとラベルなしデータからの擬似ラベルを利用して、マスク付きドメインを学習する。
マスク付きドメインから元のドメインをより有利にするため,マルチドメイン学習の観点から提案手法の理論解析を行い,また,従来のドメインとマスク付きドメインとのドメインギャップを低減するために,新たな逆トレーニング損失を考案し,半教師付き学習性能を向上する。
また、CNNネットワークに対向型マスク画像モデリングを拡張した。
3つの公開医用画像セグメンテーションデータセットの大規模な実験により,提案手法の有効性が実証された。
私たちのコードはhttps://github.com/zlheui/AdvMIM.comで公開されています。
関連論文リスト
- Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical
Image Segmentation [0.0]
医用画像セグメンテーションのためのシンプルなUNet-Transformer(seUNet-Trans)モデルを提案する。
提案手法では,UNetモデルを特徴抽出器として設計し,入力画像から複数の特徴マップを生成する。
UNetアーキテクチャと自己認識機構を活用することで、我々のモデルはローカルとグローバルの両方のコンテキスト情報を保存するだけでなく、入力要素間の長距離依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2023-10-16T01:13:38Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - A New Perspective to Boost Vision Transformer for Medical Image
Classification [33.215289791017064]
本稿では,トランスフォーマーバックボーンを用いた医用画像分類のための自己教師付き学習手法を提案する。
我々のBOLTは、自己教師型表現学習のための2つのネットワーク、すなわちオンラインとターゲットのブランチで構成されています。
医療画像分類におけるBOLTの優位性は,ImageNetの事前学習量や最先端の自己教師型学習手法と比較して検証した。
論文 参考訳(メタデータ) (2023-01-03T07:45:59Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Multiscale Convolutional Transformer with Center Mask Pretraining for
Hyperspectral Image Classificationtion [14.33259265286265]
本稿では,空間スペクトル情報の効率的な抽出を実現するために,高スペクトル画像(HSI)のための高速多スケール畳み込みモジュールを提案する。
マスクオートエンコーダと同様に、我々の事前学習法は、エンコーダ内の中央画素の対応するトークンのみをマスクし、残りのトークンをデコーダに入力し、中央画素のスペクトル情報を再構成する。
論文 参考訳(メタデータ) (2022-03-09T14:42:26Z) - Box-Adapt: Domain-Adaptive Medical Image Segmentation using Bounding
BoxSupervision [52.45336255472669]
深層学習のための弱教師付きドメイン適応設定を提案する。
Box-Adaptは、ソースドメインのきめ細かいセグナオンマスクとターゲットドメインの弱いバウンディングボックスを完全に探索する。
肝セグメンテーションにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-08-19T01:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。