論文の概要: Associating Spatially-Consistent Grouping with Text-supervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2304.01114v1
- Date: Mon, 3 Apr 2023 16:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 14:36:18.980282
- Title: Associating Spatially-Consistent Grouping with Text-supervised Semantic
Segmentation
- Title(参考訳): テキスト教師付き意味セグメンテーションによる空間的一貫性のあるグループ化
- Authors: Yabo Zhang, Zihao Wang, Jun Hao Liew, Jingjia Huang, Manyu Zhu, Jiashi
Feng, Wangmeng Zuo
- Abstract要約: テキスト教師付きセマンティックセグメンテーションを用いた自己教師付き空間一貫性グループ化を提案する。
部分的なグループ化結果を考えると、さらに画像レベルから領域レベルへのテキスト教師付きモデルを適用する。
59.2% mIoU と 32.4% mIoU を Pascal VOC および Pascal Context ベンチマークで達成した。
- 参考スコア(独自算出の注目度): 117.36746226803993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we investigate performing semantic segmentation solely through
the training on image-sentence pairs. Due to the lack of dense annotations,
existing text-supervised methods can only learn to group an image into semantic
regions via pixel-insensitive feedback. As a result, their grouped results are
coarse and often contain small spurious regions, limiting the upper-bound
performance of segmentation. On the other hand, we observe that grouped results
from self-supervised models are more semantically consistent and break the
bottleneck of existing methods. Motivated by this, we introduce associate
self-supervised spatially-consistent grouping with text-supervised semantic
segmentation. Considering the part-like grouped results, we further adapt a
text-supervised model from image-level to region-level recognition with two
core designs. First, we encourage fine-grained alignment with a one-way
noun-to-region contrastive loss, which reduces the mismatched noun-region
pairs. Second, we adopt a contextually aware masking strategy to enable
simultaneous recognition of all grouped regions. Coupled with
spatially-consistent grouping and region-adapted recognition, our method
achieves 59.2% mIoU and 32.4% mIoU on Pascal VOC and Pascal Context benchmarks,
significantly surpassing the state-of-the-art methods.
- Abstract(参考訳): 本研究では,画像-文対の学習を通してのみ意味的セグメンテーションを行う。
アノテーションが不足しているため、既存のテキスト管理手法では、ピクセル非感性フィードバックによってイメージをセマンティック領域にグループ化することしか学べない。
その結果、グループ化された結果は粗く、しばしば小さなスプリアス領域を含んでおり、セグメンテーションの上限性能を制限している。
一方,自己教師モデルによるグループ化の結果は,より意味的に一貫性があり,既存の手法のボトルネックを解消している。
そこで本研究では,テキスト教師付きセマンティックセマンティックセグメンテーションを用いた自己教師付き空間一貫性グループを提案する。
部分的グループ化の結果を考えると、2つのコア設計による画像レベルから領域レベル認識へのテキスト教師付きモデルの適用をさらに進める。
まず,一方向の名詞と地域間の対比損失による微粒なアライメントを奨励し,不一致な名詞と地域間のペアを減らす。
第2に、すべてのグループ領域の同時認識を可能にするために、コンテキスト対応マスキング戦略を採用する。
空間的に一貫性のあるグループ化と領域適応認識を併用して,パスカルVOCおよびパスカルコンテキストのベンチマークにおいて59.2% mIoUと32.4% mIoUを達成し,最先端の手法をはるかに上回っている。
関連論文リスト
- Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation [28.24883865053459]
本稿では,高密度アノテーションを伴わない画像テキストペアのみを用いて,画像内の任意の視覚概念をセグメント化できるモデルを学習することを目的とする。
既存の手法では、画像とテキストのペアにおけるコントラスト学習が、視覚セグメントとテキストの意味を効果的に一致させることが示されている。
テキストはしばしば複数の意味概念で構成され、セマンティックセグメンテーションは意味的に同質なセグメンテーションを作成する。
論文 参考訳(メタデータ) (2024-04-05T17:25:17Z) - Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。
具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。
提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文 参考訳(メタデータ) (2024-03-06T13:43:36Z) - Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z) - Semantic Connectivity-Driven Pseudo-labeling for Cross-domain
Segmentation [89.41179071022121]
自己学習はドメイン間セマンティックセグメンテーションにおいて一般的なアプローチである。
本稿ではセマンティック・コネクティビティ駆動の擬似ラベル方式を提案する。
このアプローチは、接続レベルにおいて擬似ラベルを定式化し、構造的および低雑音のセマンティクスの学習を容易にする。
論文 参考訳(メタデータ) (2023-12-11T12:29:51Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - Region-level Contrastive and Consistency Learning for Semi-Supervised
Semantic Segmentation [30.1884540364192]
半教師付きセマンティックセグメンテーションのための領域レベルのコントラスト・一貫性学習フレームワーク(RC2L)を提案する。
具体的には、まず、地域マスクコントラスト(RMC)損失と地域特徴コントラスト(RFC)損失を、地域レベルのコントラスト特性を達成するために提案する。
提案する領域レベルのコントラストと一貫性の規則化に基づいて,半教師付きセマンティックセグメンテーションのための領域レベルのコントラストと一貫性の学習フレームワーク(RC2L)を開発する。
論文 参考訳(メタデータ) (2022-04-28T07:22:47Z) - A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文 参考訳(メタデータ) (2021-12-08T22:06:31Z) - Towards Fewer Annotations: Active Learning via Region Impurity and
Prediction Uncertainty for Domain Adaptive Semantic Segmentation [19.55572909866489]
ドメインシフトに基づく意味的セグメンテーションのための領域ベースアクティブラーニング手法を提案する。
領域不純物・予測不確かさ(AL-RIPU)を用いた能動学習では,画像領域の空間的隣接性を特徴付ける新たな獲得戦略が導入された。
我々の手法は、教師付きパフォーマンスにほぼ到達するためにはほとんどアノテーションを必要とせず、最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-25T06:40:58Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。