論文の概要: When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class
Medical Image Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2208.06449v1
- Date: Fri, 12 Aug 2022 18:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 14:31:57.566989
- Title: When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class
Medical Image Semantic Segmentation
- Title(参考訳): cnnがvitと出会う: 多クラス医用画像セマンティクスセグメンテーションのための半教師付き学習に向けて
- Authors: Ziyang Wang, Tianze Li, Jian-Qing Zheng, Baoru Huang
- Abstract要約: 本稿では,一貫性を意識した擬似ラベルに基づく自己認識手法を提案する。
我々のフレームワークは、ViTとCNNによって相互に強化された特徴学習モジュールと、一貫性を意識した目的のために堅牢なガイダンスモジュールから構成されている。
実験により,提案手法は,公開ベンチマークデータセット上での最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 9.332404732688884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the lack of quality annotation in medical imaging community,
semi-supervised learning methods are highly valued in image semantic
segmentation tasks. In this paper, an advanced consistency-aware
pseudo-label-based self-ensembling approach is presented to fully utilize the
power of Vision Transformer(ViT) and Convolutional Neural Network(CNN) in
semi-supervised learning. Our proposed framework consists of a feature-learning
module which is enhanced by ViT and CNN mutually, and a guidance module which
is robust for consistency-aware purposes. The pseudo labels are inferred and
utilized recurrently and separately by views of CNN and ViT in the
feature-learning module to expand the data set and are beneficial to each
other. Meanwhile, a perturbation scheme is designed for the feature-learning
module, and averaging network weight is utilized to develop the guidance
module. By doing so, the framework combines the feature-learning strength of
CNN and ViT, strengthens the performance via dual-view co-training, and enables
consistency-aware supervision in a semi-supervised manner. A topological
exploration of all alternative supervision modes with CNN and ViT are detailed
validated, demonstrating the most promising performance and specific setting of
our method on semi-supervised medical image segmentation tasks. Experimental
results show that the proposed method achieves state-of-the-art performance on
a public benchmark data set with a variety of metrics. The code is publicly
available.
- Abstract(参考訳): 医用画像コミュニティにおける質的アノテーションの欠如により、半教師付き学習法は画像意味セグメンテーションタスクにおいて高い評価を受けている。
本稿では,視覚変換器(ViT)と畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)のパワーを半教師付き学習に活用するために,高度に整合性を考慮した擬似ラベルに基づく自己組織化手法を提案する。
提案するフレームワークは,ViTとCNNによって相互に強化された特徴学習モジュールと,一貫性に配慮した堅牢なガイダンスモジュールから構成される。
擬似ラベルは、特徴学習モジュール内のcnnとvitのビューによって、再帰的かつ別々に推測・利用され、データセットを拡張し、互いに有益である。
一方、特徴学習モジュールに対して摂動方式を設計し、平均的なネットワーク重量を利用して誘導モジュールを開発する。
これにより、CNNとViTの機能学習の強みを組み合わせ、デュアルビューのコトレーニングを通じてパフォーマンスを強化し、半教師付きで一貫性に配慮した監視を可能にする。
CNN と ViT による全ての代替監督モードのトポロジカル探索を詳細に検証し,半監督的医用画像分割作業における本手法の有望な性能と具体的設定を示す。
実験結果から,提案手法は,様々な指標を持つ公開ベンチマークデータセット上での最先端性能を実現する。
コードは公開されている。
関連論文リスト
- Intrapartum Ultrasound Image Segmentation of Pubic Symphysis and Fetal Head Using Dual Student-Teacher Framework with CNN-ViT Collaborative Learning [1.5233179662962222]
pubic symphysis and fetal head (PSFH) の分節は、労働の進行をモニターし、潜在的に引き起こされる合併症を特定するための重要なステップである。
従来の半教師付き学習アプローチは、主に畳み込みニューラルネットワーク(CNN)に基づく統合ネットワークモデルを利用する。
CNN と Transformer を組み合わせた新しいフレームワークである Dual-Student and Teacher Combining CNN (DSTCT) を導入する。
論文 参考訳(メタデータ) (2024-09-11T00:57:31Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Semi-Mamba-UNet: Pixel-Level Contrastive and Pixel-Level Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation [11.637738540262797]
本研究では,従来のCNNベースのUNetと純粋に視覚的なMambaベースのエンコーダデコーダアーキテクチャを組み込んだセミマンバUNetを,半教師付き学習フレームワークに統合する。
この革新的なSSLアプローチは、両方のネットワークを利用して擬似ラベルを生成し、ピクセルレベルで相互に相互に監督する。
本稿では,2対のプロジェクタを用いた自己教師型画素レベルのコントラスト学習戦略を導入し,特徴学習機能をさらに強化する。
論文 参考訳(メタデータ) (2024-02-11T17:09:21Z) - Multi-dimensional Fusion and Consistency for Semi-supervised Medical
Image Segmentation [10.628250457432499]
医用画像セグメンテーションに適した新しい半教師付き学習フレームワークを提案する。
我々のアプローチの中心は、革新的なマルチスケールテキスト対応のViT-CNN Fusionスキームである。
本稿では,ロバストな擬似ラベルを生成するためのマルチアクシス一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-12T22:21:14Z) - R-Cut: Enhancing Explainability in Vision Transformers with Relationship
Weighted Out and Cut [14.382326829600283]
リレーションウェイトアウト」と「カット」の2つのモジュールを紹介します。
Cut"モジュールは、位置、テクスチャ、色などの要素を考慮して、きめ細かい特徴分解を行う。
我々は,ImageNetデータセット上で定性的かつ定量的な実験を行い,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-07-18T08:03:51Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Deep Image Clustering with Contrastive Learning and Multi-scale Graph
Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。
複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文 参考訳(メタデータ) (2022-07-14T19:16:56Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Spatial-Temporal Multi-Cue Network for Continuous Sign Language
Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。
有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-08T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。