論文の概要: When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class
Medical Image Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2208.06449v2
- Date: Thu, 8 Feb 2024 22:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 21:36:58.623302
- Title: When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class
Medical Image Semantic Segmentation
- Title(参考訳): cnnがvitと出会う: 多クラス医用画像セマンティクスセグメンテーションのための半教師付き学習に向けて
- Authors: Ziyang Wang, Tianze Li, Jian-Qing Zheng, Baoru Huang
- Abstract要約: 本稿では,一貫性を意識した擬似ラベルに基づく自己認識手法を提案する。
我々のフレームワークは、ViTとCNNによって相互に強化された特徴学習モジュールと、一貫性を意識した目的のために堅牢なガイダンスモジュールから構成されている。
実験により,提案手法は,公開ベンチマークデータセット上での最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 13.911947592067678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the lack of quality annotation in medical imaging community,
semi-supervised learning methods are highly valued in image semantic
segmentation tasks. In this paper, an advanced consistency-aware
pseudo-label-based self-ensembling approach is presented to fully utilize the
power of Vision Transformer(ViT) and Convolutional Neural Network(CNN) in
semi-supervised learning. Our proposed framework consists of a feature-learning
module which is enhanced by ViT and CNN mutually, and a guidance module which
is robust for consistency-aware purposes. The pseudo labels are inferred and
utilized recurrently and separately by views of CNN and ViT in the
feature-learning module to expand the data set and are beneficial to each
other. Meanwhile, a perturbation scheme is designed for the feature-learning
module, and averaging network weight is utilized to develop the guidance
module. By doing so, the framework combines the feature-learning strength of
CNN and ViT, strengthens the performance via dual-view co-training, and enables
consistency-aware supervision in a semi-supervised manner. A topological
exploration of all alternative supervision modes with CNN and ViT are detailed
validated, demonstrating the most promising performance and specific setting of
our method on semi-supervised medical image segmentation tasks. Experimental
results show that the proposed method achieves state-of-the-art performance on
a public benchmark data set with a variety of metrics. The code is publicly
available.
- Abstract(参考訳): 医用画像コミュニティにおける質的アノテーションの欠如により、半教師付き学習法は画像意味セグメンテーションタスクにおいて高い評価を受けている。
本稿では,視覚変換器(ViT)と畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)のパワーを半教師付き学習に活用するために,高度に整合性を考慮した擬似ラベルに基づく自己組織化手法を提案する。
提案するフレームワークは,ViTとCNNによって相互に強化された特徴学習モジュールと,一貫性に配慮した堅牢なガイダンスモジュールから構成される。
擬似ラベルは、特徴学習モジュール内のcnnとvitのビューによって、再帰的かつ別々に推測・利用され、データセットを拡張し、互いに有益である。
一方、特徴学習モジュールに対して摂動方式を設計し、平均的なネットワーク重量を利用して誘導モジュールを開発する。
これにより、CNNとViTの機能学習の強みを組み合わせ、デュアルビューのコトレーニングを通じてパフォーマンスを強化し、半教師付きで一貫性に配慮した監視を可能にする。
CNN と ViT による全ての代替監督モードのトポロジカル探索を詳細に検証し,半監督的医用画像分割作業における本手法の有望な性能と具体的設定を示す。
実験結果から,提案手法は,様々な指標を持つ公開ベンチマークデータセット上での最先端性能を実現する。
コードは公開されている。
関連論文リスト
- Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Semi-Mamba-UNet: Pixel-Level Contrastive Cross-Supervised Visual
Mamba-based UNet for Semi-Supervised Medical Image Segmentation [13.748446415530937]
本稿では,視覚的マンバベースUNetアーキテクチャを従来のUNetと統合したセミマンバUNetを,半教師付き学習(SSL)フレームワークに導入する。
一般に公開されているMRI心筋セグメンテーションデータセットの総合的評価は,Semi-Mamba-UNetの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-11T17:09:21Z) - SMC-NCA: Semantic-guided Multi-level Contrast for Semi-supervised
Temporal Action Segmentation [57.9100732918114]
本稿では,アクションセグメンテーションのための強力なフレームワイズ表現を抽出するために,近隣環境対応ユニット(SMC-NCA)を用いた新しいマルチレベルコントラスト方式を提案する。
我々のSMCは3つのベンチマークで他の最先端の手法よりも優れており、編集距離と精度の点で最大17.8%と12.6%の改善を提供している。
また,提案手法の有効性をパーキンソン病マウス行動データセットに示す。
論文 参考訳(メタデータ) (2023-12-19T17:26:44Z) - Multi-dimensional Fusion and Consistency for Semi-supervised Medical
Image Segmentation [10.628250457432499]
医用画像セグメンテーションに適した新しい半教師付き学習フレームワークを提案する。
我々のアプローチの中心は、革新的なマルチスケールテキスト対応のViT-CNN Fusionスキームである。
本稿では,ロバストな擬似ラベルを生成するためのマルチアクシス一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-12T22:21:14Z) - R-Cut: Enhancing Explainability in Vision Transformers with Relationship
Weighted Out and Cut [14.382326829600283]
リレーションウェイトアウト」と「カット」の2つのモジュールを紹介します。
Cut"モジュールは、位置、テクスチャ、色などの要素を考慮して、きめ細かい特徴分解を行う。
我々は,ImageNetデータセット上で定性的かつ定量的な実験を行い,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-07-18T08:03:51Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Semi-Supervised Cross-Modal Salient Object Detection with U-Structure
Networks [18.12933868289846]
言語情報を視覚に基づくU-Structureネットワークに組み込むことにより,適切な物体検出作業を実現する。
本稿では,視覚的特徴と言語的特徴を組み合わせるために,効率的なクロスモーダル自己認識(eCMSA)と呼ばれる新しいモジュールを提案する。
ラベル付けの負担を軽減するため,画像キャプションモデルをトレーニングし,半教師付き学習手法を用いた。
論文 参考訳(メタデータ) (2022-08-08T18:39:37Z) - Deep Image Clustering with Contrastive Learning and Multi-scale Graph
Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。
複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2022-07-14T19:16:56Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。