論文の概要: DualProtoSeg: Simple and Efficient Design with Text- and Image-Guided Prototype Learning for Weakly Supervised Histopathology Image Segmentation
- arxiv url: http://arxiv.org/abs/2512.10314v1
- Date: Thu, 11 Dec 2025 06:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.211526
- Title: DualProtoSeg: Simple and Efficient Design with Text- and Image-Guided Prototype Learning for Weakly Supervised Histopathology Image Segmentation
- Title(参考訳): DualProtoSeg: 弱教師付き病理画像分割のためのテキストおよび画像誘導型プロトタイプ学習によるシンプルで効率的な設計
- Authors: Anh M. Vu, Khang P. Le, Trang T. K. Vo, Ha Thach, Huy Hung Nguyen, David Yang, Han H. Huynh, Quynh Nguyen, Tuan M. Pham, Tuan-Anh Le, Minh H. N. Le, Thanh-Huy Nguyen, Akash Awasthi, Chandra Mohan, Zhu Han, Hien Van Nguyen,
- Abstract要約: 本稿では、視覚言語アライメントを利用して、弱い監督下での地域発見を改善するプロトタイプ駆動フレームワークを提案する。
本手法は,テキストベースのプロトタイプを生成するために,CoOp形式の学習可能なプロンプトチューニングを統合し,学習可能なプロトタイプと組み合わせて,デュアルモーダルなプロトタイプバンクを形成する。
- 参考スコア(独自算出の注目度): 19.307501518696622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised semantic segmentation (WSSS) in histopathology seeks to reduce annotation cost by learning from image-level labels, yet it remains limited by inter-class homogeneity, intra-class heterogeneity, and the region-shrinkage effect of CAM-based supervision. We propose a simple and effective prototype-driven framework that leverages vision-language alignment to improve region discovery under weak supervision. Our method integrates CoOp-style learnable prompt tuning to generate text-based prototypes and combines them with learnable image prototypes, forming a dual-modal prototype bank that captures both semantic and appearance cues. To address oversmoothing in ViT representations, we incorporate a multi-scale pyramid module that enhances spatial precision and improves localization quality. Experiments on the BCSS-WSSS benchmark show that our approach surpasses existing state-of-the-art methods, and detailed analyses demonstrate the benefits of text description diversity, context length, and the complementary behavior of text and image prototypes. These results highlight the effectiveness of jointly leveraging textual semantics and visual prototype learning for WSSS in digital pathology.
- Abstract(参考訳): 病理組織学におけるWSSS (Weakly supervised semantic segmentation) は、画像レベルのラベルから学ぶことによってアノテーションコストを削減しようとするが、クラス間の均一性、クラス内不均一性、CAMに基づく監督の領域縮小効果によって制限されている。
本稿では、視覚言語アライメントを利用して、弱い監督下での地域発見を改善する、シンプルで効果的なプロトタイプ駆動フレームワークを提案する。
提案手法は,テキストベースのプロトタイプを生成するために,CoOpスタイルの学習可能なプロンプトチューニングを統合し,学習可能なプロトタイプと組み合わせて,セマンティックと外観の両方をキャプチャするデュアルモーダルプロトタイプバンクを形成する。
ViT表現の過度な平滑化に対処するため,空間的精度を高め,ローカライズ品質を向上させるマルチスケールピラミッドモジュールを組み込んだ。
BCSS-WSSSベンチマーク実験により,本手法は既存の最先端手法を超越し,テキスト記述の多様性,文脈長,テキストおよび画像プロトタイプの相補的動作の利点を詳細に解析した。
これらの結果は,デジタル病理学におけるテキストセマンティクスとWSSSの視覚的プロトタイプ学習の併用の有効性を浮き彫りにした。
関連論文リスト
- Multimodal Prototype Alignment for Semi-supervised Pathology Image Segmentation [9.790130257265217]
MPAMatchは,マルチモーダルプロトタイプ誘導監視パラダイムの下で画素レベルのコントラスト学習を行う,新たなセグメンテーションフレームワークである。
MPAMatchの中核的な革新は、画像プロトタイプとピクセルラベル、およびテキストプロトタイプとピクセルラベルの間の二重コントラスト学習方式にある。
さらに,ViTバックボーンを病理予知基盤モデル(Uni)に置き換えることで,古典的セグメンテーションアーキテクチャ(TransUNet)を再構築する。
論文 参考訳(メタデータ) (2025-08-27T05:15:13Z) - BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation [9.262045402495225]
BiPVL-Segは、視覚言語融合と埋め込みアライメントを統合するエンドツーエンドフレームワークである。
BiPVL-Segはアーキテクチャにプログレッシブ融合を導入し、視覚とテキストエンコーダの段階的な情報交換を容易にする。
これは、クラスレベルと概念レベルの両方でテキストと視覚の埋め込みをアライメントすることで、テキストエンコーダの理解を高める訓練目的である。
論文 参考訳(メタデータ) (2025-03-30T17:34:39Z) - Prototype-Based Image Prompting for Weakly Supervised Histopathological Image Segmentation [13.640757848445835]
画素レベルのアノテーションのコストが高いため,画像レベルのラベル付き画像セグメント化の弱さが注目されている。
クラスアクティベーションマップ(CAM)を用いた伝統的な手法は、しばしば最も差別的な領域のみをハイライトする。
論文 参考訳(メタデータ) (2025-03-15T09:55:31Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Toward Modality Gap: Vision Prototype Learning for Weakly-supervised Semantic Segmentation with CLIP [19.697857943845012]
本稿では,テキストプロトタイプの助けを借りて,視覚空間におけるクラス固有の視覚プロトタイプを学習するためのフレームワークを提案する。
また、対応するプロトタイプに埋め込まれた領域を対比する地域意味コントラストモジュールを提案する。
提案するフレームワークは,2つのベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-27T13:55:11Z) - A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。