論文の概要: Context Patch Fusion With Class Token Enhancement for Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2601.14718v1
- Date: Wed, 21 Jan 2026 07:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.273079
- Title: Context Patch Fusion With Class Token Enhancement for Weakly Supervised Semantic Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーションのためのクラストークン強化を用いたコンテキストパッチ融合
- Authors: Yiyang Fu, Hui Li, Wangyu Wu,
- Abstract要約: 本稿では,CPF-CTE(Context Patch Fusion with Class Token Enhancement)フレームワークを提案する。
CPF-CTEは、パッチ間のコンテキスト関係を利用して特徴表現を強化し、セグメンテーションを改善する。
CPF-CTEは従来のWSSS手法を一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 5.859471574310312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly Supervised Semantic Segmentation (WSSS), which relies only on image-level labels, has attracted significant attention for its cost-effectiveness and scalability. Existing methods mainly enhance inter-class distinctions and employ data augmentation to mitigate semantic ambiguity and reduce spurious activations. However, they often neglect the complex contextual dependencies among image patches, resulting in incomplete local representations and limited segmentation accuracy. To address these issues, we propose the Context Patch Fusion with Class Token Enhancement (CPF-CTE) framework, which exploits contextual relations among patches to enrich feature representations and improve segmentation. At its core, the Contextual-Fusion Bidirectional Long Short-Term Memory (CF-BiLSTM) module captures spatial dependencies between patches and enables bidirectional information flow, yielding a more comprehensive understanding of spatial correlations. This strengthens feature learning and segmentation robustness. Moreover, we introduce learnable class tokens that dynamically encode and refine class-specific semantics, enhancing discriminative capability. By effectively integrating spatial and semantic cues, CPF-CTE produces richer and more accurate representations of image content. Extensive experiments on PASCAL VOC 2012 and MS COCO 2014 validate that CPF-CTE consistently surpasses prior WSSS methods.
- Abstract(参考訳): Weakly Supervised Semantic Segmentation (WSSS)は画像レベルのラベルにのみ依存しているが、コスト効率とスケーラビリティに大きな注目を集めている。
既存の手法は主にクラス間の区別を強化し、意味的あいまいさを緩和し、刺激的なアクティベーションを減らすためにデータ拡張を利用する。
しかし、画像パッチ間の複雑なコンテキスト依存を無視することが多く、不完全な局所表現と限定されたセグメンテーション精度をもたらす。
これらの問題に対処するために、パッチ間のコンテキスト関係を利用して特徴表現を強化し、セグメンテーションを改善する、コンテキストパッチ融合とクラストークン拡張(CPF-CTE)フレームワークを提案する。
CF-BiLSTM(Contextual-Fusion Bidirectional Long Short-Term Memory)モジュールは、パッチ間の空間的依存関係をキャプチャし、双方向情報フローを可能にする。
これにより、特徴学習とセグメンテーションの堅牢性が強化される。
さらに,クラス固有のセマンティクスを動的にエンコードし,洗練し,識別能力を向上する学習可能なクラストークンを導入する。
空間的および意味的なキューを効果的に統合することにより、CPF-CTEは画像コンテンツのよりリッチで正確な表現を生成する。
PASCAL VOC 2012 と MS COCO 2014 の広範な実験により、CPF-CTE が従来の WSSS 手法を一貫して上回っていることが確認された。
関連論文リスト
- Multi-Text Guided Few-Shot Semantic Segmentation [17.27158303776253]
セグメント化性能を向上させるためにMTGNet(Multi-Text Guided Few-Shot Semantic Network)を提案する。
MTGNetは様々なテキストプロンプトを融合させ、テキストの事前を洗練させ、視覚的事前の相互最適化を導く。
PASCAL-5iでは76.8% mIoU、COCO-20iでは57.4%を達成し、高いクラス内変動を示す折り畳みは顕著に改善されている。
論文 参考訳(メタデータ) (2025-11-19T15:09:19Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - Uncertainty-Participation Context Consistency Learning for Semi-supervised Semantic Segmentation [9.546065701435532]
半教師付きセマンティックセグメンテーションは、広範囲なラベル付きデータへの依存を緩和する能力にかなりの注目を集めている。
本稿では、よりリッチな監視信号を探索するために、不確かさ参加型コンテキスト一貫性学習(UCCL)手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T06:49:59Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - CTNet: Context-based Tandem Network for Semantic Segmentation [77.4337867789772]
本研究では,空間コンテキスト情報とチャネルコンテキスト情報とを対話的に探索し,新しいコンテキストベースタンデムネットワーク(CTNet)を提案する。
セマンティックセグメンテーションのための学習表現の性能をさらに向上するため、2つのコンテキストモジュールの結果を適応的に統合する。
論文 参考訳(メタデータ) (2021-04-20T07:33:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。