Fugu-MT 論文翻訳(概要): When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class Medical Image Semantic Segmentation

論文の概要: When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class Medical Image Semantic Segmentation

arxiv url: http://arxiv.org/abs/2208.06449v2
Date: Thu, 8 Feb 2024 22:55:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 21:36:58.623302
Title: When CNN Meet with ViT: Towards Semi-Supervised Learning for Multi-Class Medical Image Semantic Segmentation
Title（参考訳）: cnnがvitと出会う: 多クラス医用画像セマンティクスセグメンテーションのための半教師付き学習に向けて
Authors: Ziyang Wang, Tianze Li, Jian-Qing Zheng, Baoru Huang
Abstract要約: 本稿では,一貫性を意識した擬似ラベルに基づく自己認識手法を提案する。我々のフレームワークは、ViTとCNNによって相互に強化された特徴学習モジュールと、一貫性を意識した目的のために堅牢なガイダンスモジュールから構成されている。実験により,提案手法は,公開ベンチマークデータセット上での最先端性能を実現することを示す。
参考スコア（独自算出の注目度）: 13.911947592067678
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Due to the lack of quality annotation in medical imaging community, semi-supervised learning methods are highly valued in image semantic segmentation tasks. In this paper, an advanced consistency-aware pseudo-label-based self-ensembling approach is presented to fully utilize the power of Vision Transformer(ViT) and Convolutional Neural Network(CNN) in semi-supervised learning. Our proposed framework consists of a feature-learning module which is enhanced by ViT and CNN mutually, and a guidance module which is robust for consistency-aware purposes. The pseudo labels are inferred and utilized recurrently and separately by views of CNN and ViT in the feature-learning module to expand the data set and are beneficial to each other. Meanwhile, a perturbation scheme is designed for the feature-learning module, and averaging network weight is utilized to develop the guidance module. By doing so, the framework combines the feature-learning strength of CNN and ViT, strengthens the performance via dual-view co-training, and enables consistency-aware supervision in a semi-supervised manner. A topological exploration of all alternative supervision modes with CNN and ViT are detailed validated, demonstrating the most promising performance and specific setting of our method on semi-supervised medical image segmentation tasks. Experimental results show that the proposed method achieves state-of-the-art performance on a public benchmark data set with a variety of metrics. The code is publicly available.
Abstract（参考訳）: 医用画像コミュニティにおける質的アノテーションの欠如により、半教師付き学習法は画像意味セグメンテーションタスクにおいて高い評価を受けている。本稿では,視覚変換器(ViT)と畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)のパワーを半教師付き学習に活用するために,高度に整合性を考慮した擬似ラベルに基づく自己組織化手法を提案する。提案するフレームワークは,ViTとCNNによって相互に強化された特徴学習モジュールと,一貫性に配慮した堅牢なガイダンスモジュールから構成される。擬似ラベルは、特徴学習モジュール内のcnnとvitのビューによって、再帰的かつ別々に推測・利用され、データセットを拡張し、互いに有益である。一方、特徴学習モジュールに対して摂動方式を設計し、平均的なネットワーク重量を利用して誘導モジュールを開発する。これにより、CNNとViTの機能学習の強みを組み合わせ、デュアルビューのコトレーニングを通じてパフォーマンスを強化し、半教師付きで一貫性に配慮した監視を可能にする。 CNN と ViT による全ての代替監督モードのトポロジカル探索を詳細に検証し,半監督的医用画像分割作業における本手法の有望な性能と具体的設定を示す。実験結果から,提案手法は,様々な指標を持つ公開ベンチマークデータセット上での最先端性能を実現する。コードは公開されている。

関連論文リスト

Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。 Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-23T03:21:33Z)
Boosting Semi-Supervised Medical Image Segmentation via Masked Image Consistency and Discrepancy Learning [2.5355185243767986]
3つの重要なモジュールを持つMasked Image Consistency and Discrepancy Learning(MICD)フレームワークを提案する。 Cross Feature Consistency (CFC)モジュールは、情報交換とモデルロバスト性を確立する。 Cross Model Discrepancy (CMD)モジュールは、EMAの教師ネットワークを利用して出力を監督し、分岐の多様性を維持する。
論文参考訳（メタデータ） (2025-03-18T08:20:35Z)
Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。 MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。 MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文参考訳（メタデータ） (2025-01-18T11:57:20Z)
Intrapartum Ultrasound Image Segmentation of Pubic Symphysis and Fetal Head Using Dual Student-Teacher Framework with CNN-ViT Collaborative Learning [1.5233179662962222]
pubic symphysis and fetal head (PSFH) の分節は、労働の進行をモニターし、潜在的に引き起こされる合併症を特定するための重要なステップである。従来の半教師付き学習アプローチは、主に畳み込みニューラルネットワーク(CNN)に基づく統合ネットワークモデルを利用する。 CNN と Transformer を組み合わせた新しいフレームワークである Dual-Student and Teacher Combining CNN (DSTCT) を導入する。
論文参考訳（メタデータ） (2024-09-11T00:57:31Z)
PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。 CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文参考訳（メタデータ） (2024-09-08T15:02:25Z)
Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-03-14T13:52:03Z)
Semi-Mamba-UNet: Pixel-Level Contrastive and Pixel-Level Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation [11.637738540262797]
本研究では,従来のCNNベースのUNetと純粋に視覚的なMambaベースのエンコーダデコーダアーキテクチャを組み込んだセミマンバUNetを,半教師付き学習フレームワークに統合する。この革新的なSSLアプローチは、両方のネットワークを利用して擬似ラベルを生成し、ピクセルレベルで相互に相互に監督する。本稿では,2対のプロジェクタを用いた自己教師型画素レベルのコントラスト学習戦略を導入し,特徴学習機能をさらに強化する。
論文参考訳（メタデータ） (2024-02-11T17:09:21Z)
Multi-dimensional Fusion and Consistency for Semi-supervised Medical Image Segmentation [10.628250457432499]
医用画像セグメンテーションに適した新しい半教師付き学習フレームワークを提案する。我々のアプローチの中心は、革新的なマルチスケールテキスト対応のViT-CNN Fusionスキームである。本稿では,ロバストな擬似ラベルを生成するためのマルチアクシス一貫性フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-12T22:21:14Z)
R-Cut: Enhancing Explainability in Vision Transformers with Relationship Weighted Out and Cut [14.382326829600283]
リレーションウェイトアウト」と「カット」の2つのモジュールを紹介します。 Cut"モジュールは、位置、テクスチャ、色などの要素を考慮して、きめ細かい特徴分解を行う。我々は,ImageNetデータセット上で定性的かつ定量的な実験を行い,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-07-18T08:03:51Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
Deep Image Clustering with Contrastive Learning and Multi-scale Graph Convolutional Networks [58.868899595936476]
コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。
論文参考訳（メタデータ） (2022-07-14T19:16:56Z)
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。 4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-05-05T02:27:25Z)
Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition [141.24314054768922]
本稿では、視覚に基づくシーケンス学習問題を解決するために、時空間マルチキュー(STMC)ネットワークを提案する。有効性を検証するため、3つの大規模CSLRベンチマークで実験を行った。
論文参考訳（メタデータ） (2020-02-08T15:38:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。