論文の概要: Semi-MedRef: Semi-Supervised Medical Referring Image Segmentation with Cross-Modal Alignment
- arxiv url: http://arxiv.org/abs/2605.15720v1
- Date: Fri, 15 May 2026 08:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.216288
- Title: Semi-MedRef: Semi-Supervised Medical Referring Image Segmentation with Cross-Modal Alignment
- Title(参考訳): Semi-MedRef: クロスモーダルアライメントを用いた半監督型医用リフレクション画像分割
- Authors: Yuchen Li, Zhen Zhao, Yi Liu, Luping Zhou,
- Abstract要約: 半教師付き学習(SSL)は、ラベルのないデータを活用することで、この負担を軽減することができる。
医用画像と位置言語との整合性を明確に維持する教師学生向けSSLフレームワークであるSemi-MedRefを提案する。
QaTa-COV19とMosMedData+の実験は、Semi-MedRefが完全に教師付きベースラインと半教師付きベースラインの両方を一貫して上回っていることを示した。
- 参考スコア(独自算出の注目度): 34.61027348260765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical referring image segmentation (MRIS) requires pixel-level masks aligned with textual descriptions of anatomical locations, making annotation costly in low-label regimes. Semi-supervised learning (SSL) can mitigate this burden by leveraging unlabeled data, but its success hinges on maintaining reliable image-text alignment under perturbations. Most existing SSL-based referred segmentation methods use either independent or simplistic multi-modal perturbations (e.g., left-right flips), without fully addressing cross-modal alignment under strong augmentation, while CutMix, highly effective in single-modal SSL, remains underexplored in multi-modal settings due to its tendency to disrupt image-text coherence. We propose Semi-MedRef, a teacher-student SSL framework designed to explicitly maintain consistency between medical images and positional language through three alignment-preserving components: T-PatchMix, a cross-modal CutMix-style augmentation that synchronizes patch mixing with referring expressions via position-constrained and probability-driven rules; PosAug, a position-aware text augmentation that masks or fuzzes anatomical phrases; and ITCL, a position-guided image-text contrastive learning module, which leverages positional pseudo-labels to construct soft anatomical positives and strengthen medically grounded cross-modal alignment. Experiments on QaTa-COV19 and MosMedData+ demonstrate that Semi-MedRef consistently outperforms both fully supervised and semi-supervised baselines across all label regimes.
- Abstract(参考訳): 医用基準画像セグメンテーション(MRIS)は、解剖学的位置のテキスト記述に一致したピクセルレベルのマスクを必要とする。
半教師付き学習(SSL)は、ラベルのないデータを活用することで、この負担を軽減することができるが、その成功は、摂動下での信頼性の高い画像テキストアライメントの維持に繋がる。
既存のSSLベースの参照セグメンテーション手法では、強い拡張の下でクロスモーダルアライメントを完全に解決することなく、独立あるいは単純化されたマルチモーダル摂動(例えば、左フリップ)を使用するが、CutMixは画像テキストのコヒーレンスを乱す傾向のため、マルチモーダルセグメンテーションでは未熟である。
T-PatchMixは、位置拘束型および確率駆動型ルールによる参照表現とパッチミキシングを同期させるクロスモーダルなCutMixスタイルの拡張であり、PosAugは、位置認識型テキスト拡張であり、解剖学的フレーズをマスキングまたはファッズする位置認識型画像テキストコントラスト学習モジュールである。
QaTa-COV19 と MosMedData+ の実験では、Semi-MedRef はすべてのレーベル体制で完全に監督されたベースラインと半監督されたベースラインを一貫して上回っている。
関連論文リスト
- Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification [59.24009931000134]
MVSL(Multi-View Synergistic Learning)は、適応パラダイム、表現の粒度、疾患の意味的関係に対処する統合フレームワークである。
MVSLは、視覚的およびテキスト的エンコーダの適応を分離し、それぞれの表現特性を尊重する。
さらに、グローバルなイメージセマンティクスと局所的な病変レベルの証拠の両方を明示的にモデル化するために、多粒性コントラスト学習を導入する。
MVSLは、いくつかのショットとゼロショットの分類設定において、最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-04-27T02:41:27Z) - BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation [3.7276397365086233]
BiCLIPは、医療セグメンテーションの堅牢性を高めるために設計されたフレームワークである。
双方向のマルチモーダル融合機構を備えており、視覚的特徴によってテキスト表現を反復的に洗練することができる。
運動のぼやけや低用量CTノイズなど、臨床的アーティファクトに対する大きな耐性を示す。
論文 参考訳(メタデータ) (2026-02-25T18:11:47Z) - Spatial-aware Symmetric Alignment for Text-guided Medical Image Segmentation [7.514759533994352]
テキスト誘導医療画像は、医用画像のセグメンテーションをかなり約束している。
本研究では,ハイブリッド医療用テキストを参照する能力を高めるため,空間認識型対称アライメント(SSA)フレームワークを提案する。
SSAは、特に空間的制約によって特徴づけられる病変を正確に分断する際に、最先端のSOTA(State-of-the-art)性能を達成する。
論文 参考訳(メタデータ) (2025-12-28T16:02:42Z) - Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments [7.9714765680840625]
ターゲット型マルチレベルコントラストアライメント(TMCA)を用いた言語誘導セグメンテーションネットワークを提案する。
TMCAは、言語誘導セグメンテーションにおけるパターンギャップを橋渡しするために、ターゲット・インフォームド・クロスモダリティアライメントときめ細かいテキストガイダンスを可能にする。
論文 参考訳(メタデータ) (2024-12-18T06:19:03Z) - PCRLv2: A Unified Visual Information Preservation Framework for
Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。
また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。
提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文 参考訳(メタデータ) (2023-01-02T17:47:27Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。