論文の概要: SynSeg: Feature Synergy for Multi-Category Contrastive Learning in Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2508.06115v1
- Date: Fri, 08 Aug 2025 08:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.140968
- Title: SynSeg: Feature Synergy for Multi-Category Contrastive Learning in Open-Vocabulary Semantic Segmentation
- Title(参考訳): SynSeg: オープン語彙セマンティックセマンティックセグメンテーションにおけるマルチカテゴリコントラスト学習のための特徴シナジー
- Authors: Weichen Zhang, Kebin Liu, Fan Dang, Zhui Zhu, Xikai Sun, Yunhao Liu,
- Abstract要約: 既存の弱い教師付き手法は、しばしば、カテゴリー固有の監督と、対照的な学習のための不適切な特徴的構築方法に依存している。
本研究では,この課題に対処するために,より弱い教師付きアプローチであるSynSegを提案する。
一般的に、SynSegは、弱い監督下でのセマンティックローカライゼーションと差別の能力を効果的に改善する。
- 参考スコア(独自算出の注目度): 8.299508030106168
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic segmentation in open-vocabulary scenarios presents significant challenges due to the wide range and granularity of semantic categories. Existing weakly-supervised methods often rely on category-specific supervision and ill-suited feature construction methods for contrastive learning, leading to semantic misalignment and poor performance. In this work, we propose a novel weakly-supervised approach, SynSeg, to address the challenges. SynSeg performs Multi-Category Contrastive Learning (MCCL) as a stronger training signal with a new feature reconstruction framework named Feature Synergy Structure (FSS). Specifically, MCCL strategy robustly combines both intra- and inter-category alignment and separation in order to make the model learn the knowledge of correlations from different categories within the same image. Moreover, FSS reconstructs discriminative features for contrastive learning through prior fusion and semantic-activation-map enhancement, effectively avoiding the foreground bias introduced by the visual encoder. In general, SynSeg effectively improves the abilities in semantic localization and discrimination under weak supervision. Extensive experiments on benchmarks demonstrate that our method outperforms state-of-the-art (SOTA) performance. For instance, SynSeg achieves higher accuracy than SOTA baselines by 4.5\% on VOC, 8.9\% on Context, 2.6\% on Object and 2.0\% on City.
- Abstract(参考訳): オープン語彙シナリオのセマンティックセグメンテーションは、セマンティックカテゴリの広い範囲と粒度に起因する重要な課題を示す。
既存の弱い教師付き手法は、しばしばカテゴリー固有の監督と、対照的な学習のための不適切な特徴構築手法に依存しており、意味的なミスアライメントと性能の低下につながっている。
本研究では,この課題に対処するために,より弱い教師付きアプローチであるSynSegを提案する。
SynSegは、FSS(Feature Synergy Structure)と呼ばれる新しい機能再構築フレームワークで、より強力なトレーニング信号として、マルチカテゴリコントラストラーニング(MCCL)を実行する。
特に、MCCL戦略は、モデルが同一画像内の異なるカテゴリから相関関係の知識を学習できるように、カテゴリー内アライメントとカテゴリー間アライメントと分離の両方をしっかりと組み合わせている。
さらに、FSSは、事前融合と意味アクティベーションマップの強化を通じて、コントラスト学習のための識別的特徴を再構築し、視覚エンコーダによって導入された前景バイアスを効果的に回避する。
一般的に、SynSegは、弱い監督下でのセマンティックローカライゼーションと差別の能力を効果的に改善する。
ベンチマーク実験により,本手法がSOTA(State-of-the-art)の性能より優れていることが示された。
例えば、SynSegは、VOCでは4.5 %、Contextでは8.9 %、Objectでは2.6 %、Cityでは2.0 %のSOTAベースラインよりも精度が高い。
関連論文リスト
- Training-Free Class Purification for Open-Vocabulary Semantic Segmentation [72.87707878910896]
FreeCPは、セマンティックセグメンテーションのためのトレーニング不要のクラス浄化フレームワークである。
我々は,FreeCPの有効性を検証するため,8つのベンチマークで実験を行った。
その結果、プラグイン・アンド・プレイモジュールであるFreeCPは、他のOVSSメソッドと組み合わせることでセグメンテーション性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-08-01T11:55:12Z) - MoSAiC: Multi-Modal Multi-Label Supervision-Aware Contrastive Learning for Remote Sensing [10.207026975603503]
MoSAiCは,モダリティ内およびモダリティ間コントラスト学習を多ラベル教師付きコントラスト学習と共同で最適化する統合フレームワークである。
MoSAiCは、精度、クラスタコヒーレンス、一般化の点で、完全に教師されたベースラインと自己監督されたベースラインの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-07-11T15:33:51Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - IPSeg: Image Posterior Mitigates Semantic Drift in Class-Incremental Segmentation [77.06177202334398]
CISSにおけるセマンティックドリフトとデグレード性能に寄与する2つの重要な課題を特定した。
まず、モデルの異なる部分が異なる漸進的な段階に最適化されるという、別々の最適化の問題を強調します。
第二に、不適切な擬似ラベルから生じる雑音のセマンティクスを同定し、その結果、準最適結果が得られる。
論文 参考訳(メタデータ) (2025-02-07T12:19:37Z) - Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation [36.46163240168576]
Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。
大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。
本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
論文 参考訳(メタデータ) (2025-01-29T13:24:53Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - MuSCLe: A Multi-Strategy Contrastive Learning Framework for Weakly
Supervised Semantic Segmentation [39.858844102571176]
弱教師付きセマンティックセグメンテーション(WSSS)は、教師付きセマンティックセグメンテーション(SSS)メソッドで必要とされるピクセルレベルのアノテーションではなく、画像レベルのアノテーションのような弱いラベルに依存している。
本稿では,改良された特徴表現とWSSS性能を向上させるために,新しいマルチストラテジー・コントラスト学習(MuSCLe)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-18T14:38:50Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。