論文の概要: Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2310.19001v1
- Date: Sun, 29 Oct 2023 13:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:04:40.859061
- Title: Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation
- Title(参考訳): 弱開語彙セマンティックセマンティックセグメンテーションのための原型知識の発見
- Authors: Fei Zhang, Tianfei Zhou, Boyang Li, Hao He, Chaofan Ma, Tianjiao
Zhang, Jiangchao Yao, Ya Zhang, Yanfeng Wang
- Abstract要約: 本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
- 参考スコア(独自算出の注目度): 59.37587762543934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the problem of weakly open-vocabulary semantic
segmentation (WOVSS), which learns to segment objects of arbitrary classes
using mere image-text pairs. Existing works turn to enhance the vanilla vision
transformer by introducing explicit grouping recognition, i.e., employing
several group tokens/centroids to cluster the image tokens and perform the
group-text alignment. Nevertheless, these methods suffer from a granularity
inconsistency regarding the usage of group tokens, which are aligned in the
all-to-one v.s. one-to-one manners during the training and inference phases,
respectively. We argue that this discrepancy arises from the lack of elaborate
supervision for each group token. To bridge this granularity gap, this paper
explores explicit supervision for the group tokens from the prototypical
knowledge. To this end, this paper proposes the non-learnable prototypical
regularization (NPR) where non-learnable prototypes are estimated from source
features to serve as supervision and enable contrastive matching of the group
tokens. This regularization encourages the group tokens to segment objects with
less redundancy and capture more comprehensive semantic regions, leading to
increased compactness and richness. Based on NPR, we propose the prototypical
guidance segmentation network (PGSeg) that incorporates multi-modal
regularization by leveraging prototypical sources from both images and texts at
different levels, progressively enhancing the segmentation capability with
diverse prototypical patterns. Experimental results show that our proposed
method achieves state-of-the-art performance on several benchmark datasets. The
source code is available at https://github.com/Ferenas/PGSeg.
- Abstract(参考訳): 本稿では,任意のクラスのオブジェクトを単なる画像テキストペアでセグメンテーションすることを学ぶ,弱いオープンボキャブラリー意味セグメンテーション(wovss)の問題について述べる。
既存の作業は、画像トークンをクラスタ化してグループテキストアライメントを実行するために複数のグループトークン/セントロイドを使用する明示的なグループ認識を導入することで、バニラ視覚変換器を強化する。
しかしながら、これらの手法は、訓練段階と推論段階において、すべて対1対1の方法で整列されたグループトークンの使用に関する粒度の矛盾に悩まされている。
この不一致は、各グループのトークンに対する精巧な監督が欠如していることから生じる。
この粒度のギャップを埋めるために,本論文では,グループトークンを原型知識から明示的に監視する。
そこで本研究では,非学習可能なプロトタイプをソース特徴から推定し,グループトークンのコントラストマッチングを可能にする,非学習可能なプロトタイプ正規化(NPR)を提案する。
この正規化により、グループトークンは冗長性の少ないオブジェクトをセグメンテーションし、より包括的なセマンティクス領域をキャプチャし、コンパクト性とリッチ性が向上する。
nprに基づき,画像とテキストの双方の原型的源を異なるレベルで活用し,多様な原型的パターンでセグメント化能力を高め,マルチモーダル正規化を組み込んだ原型的ガイダンスセグメンテーションネットワーク(pgseg)を提案する。
実験結果から,提案手法はいくつかのベンチマークデータセット上で最先端の性能を実現する。
ソースコードはhttps://github.com/ferenas/pgsegで入手できる。
関連論文リスト
- Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。
具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。
提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文 参考訳(メタデータ) (2024-03-06T13:43:36Z) - Contrastive Grouping with Transformer for Referring Image Segmentation [23.276636282894582]
本稿では,Transformer Network (CGFormer) を用いたコントラストグルーピングというマスク分類フレームワークを提案する。
CGFormerはトークンベースのクエリとグルーピング戦略を通じて、オブジェクトレベルの情報を明示的にキャプチャする。
実験の結果,CGFormerはセグメンテーションと一般化の両設定において,最先端の手法よりも一貫して,大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-02T20:53:42Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based
Point-Level Consistency [12.881617910150688]
本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。
具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。
提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-06T15:04:45Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - PUPS: Point Cloud Unified Panoptic Segmentation [13.668363631123649]
本稿では,シンプルだが効果的な点群統合パノプティックセグメンテーション(PUPS)フレームワークを提案する。
PUPSは、ポイントレベルの分類器のセットを使用して、エンド・ツー・エンドの方法でセマンティクスとインスタンス・グループを直接予測する。
PUPSはSemantic KITTI Panoptic segmentation Taskのリーダーボードで1位を獲得し、nuScenesの最先端の結果を得た。
論文 参考訳(メタデータ) (2023-02-13T08:42:41Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - GroupViT: Semantic Segmentation Emerges from Text Supervision [82.02467579704091]
グループ化と認識は視覚的シーン理解の重要な構成要素である。
階層型グループ視覚変換器(GroupViT)を提案する。
GroupViTはセマンティック領域をグループ化し、セマンティックセグメンテーションのタスクにゼロショットで転送する。
論文 参考訳(メタデータ) (2022-02-22T18:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。