論文の概要: Prompt Categories Cluster for Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2412.13823v1
- Date: Wed, 18 Dec 2024 13:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:00.580948
- Title: Prompt Categories Cluster for Weakly Supervised Semantic Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーションのためのプロンプトカテゴリクラスタ
- Authors: Wangyu Wu, Xianglin Qiu, Siqi Song, Xiaowei Huang, Fei Ma, Jimin Xiao,
- Abstract要約: 弱監視セマンティックス (WSSS) はその費用対効果のために大きな注目を集めている。
本稿では,Prompt Categories Clustering(PCC)と呼ばれる新しいWSSSフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 20.37668418178215
- License:
- Abstract: Weakly Supervised Semantic Segmentation (WSSS), which leverages image-level labels, has garnered significant attention due to its cost-effectiveness. The previous methods mainly strengthen the inter-class differences to avoid class semantic ambiguity which may lead to erroneous activation. However, they overlook the positive function of some shared information between similar classes. Categories within the same cluster share some similar features. Allowing the model to recognize these features can further relieve the semantic ambiguity between these classes. To effectively identify and utilize this shared information, in this paper, we introduce a novel WSSS framework called Prompt Categories Clustering (PCC). Specifically, we explore the ability of Large Language Models (LLMs) to derive category clusters through prompts. These clusters effectively represent the intrinsic relationships between categories. By integrating this relational information into the training network, our model is able to better learn the hidden connections between categories. Experimental results demonstrate the effectiveness of our approach, showing its ability to enhance performance on the PASCAL VOC 2012 dataset and surpass existing state-of-the-art methods in WSSS.
- Abstract(参考訳): 画像レベルのラベルを活用するWSSS (Weakly Supervised Semantic Segmentation) は費用対効果から注目されている。
従来の手法は主にクラス間の差異を強化し、クラスのセマンティックな曖昧さを回避し、誤ったアクティベーションにつながる可能性がある。
しかし、類似クラス間の共有情報の正の関数を見落としている。
同じクラスタ内のカテゴリは、同じような機能を共有しています。
これらの特徴を認識するモデルを提供することで、これらのクラス間のセマンティックなあいまいさをさらに和らげることができる。
本稿では,この共有情報を効果的に識別・活用するために,Prompt Categories Clustering (PCC) と呼ばれる新しいWSSSフレームワークを提案する。
具体的には,大規模言語モデル (LLM) が,プロンプトを通じてカテゴリクラスタを導出する能力について検討する。
これらのクラスタは、カテゴリ間の固有の関係を効果的に表している。
この関係情報をトレーニングネットワークに統合することで、私たちのモデルはカテゴリ間の隠れた関係をよりよく学習することができる。
提案手法の有効性を実証し,PASCAL VOC 2012データセットの性能向上と,WSSSにおける既存の最先端手法を克服する能力を示した。
関連論文リスト
- Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.740929527669483]
部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。
セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。
提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-14T14:31:36Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Primitive Generation and Semantic-related Alignment for Universal
Zero-Shot Segmentation [13.001629605405954]
本研究では, トレーニングサンプルを使わずに, 新規カテゴリのパノプティクス, 例えば, セマンティックセマンティックセマンティックセマンティックセマンティクスを実現するために, ユニバーサルゼロショットセマンティクスについて検討する。
本稿では,意味空間と視覚空間を関連づけた未知のカテゴリの特徴を合成する生成モデルを提案する。
提案手法は、ゼロショットパノプティクスのセグメンテーション、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T17:59:16Z) - Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided
Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。
このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。
本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:40:52Z) - Class Enhancement Losses with Pseudo Labels for Zero-shot Semantic
Segmentation [40.09476732999614]
マスクの提案モデルは、ゼロショットセマンティックセグメンテーションの性能を大幅に改善した。
トレーニング中にバックグラウンドを埋め込むことは問題であり、結果として得られたモデルが過剰に学習し、正しいラベルではなく、すべての見えないクラスをバックグラウンドクラスとして割り当てる傾向がある。
本稿では,学習中の背景埋め込みの使用を回避し,テキスト埋め込みとマスク提案のセマンティックな関係を類似度スコアのランク付けにより活用する新しいクラス拡張損失を提案する。
論文 参考訳(メタデータ) (2023-01-18T06:55:02Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot
Action Recognition [33.23662792742078]
ゼロショット動作認識のための2段階のディープニューラルネットワークを提案する。
サンプリング段階では,授業の動作特徴と単語ベクトルによって訓練されたGAN(Generative Adversarial Network)を利用する。
分類段階において、アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフを構築する。
論文 参考訳(メタデータ) (2021-05-25T09:34:42Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - BriNet: Towards Bridging the Intra-class and Inter-class Gaps in
One-Shot Segmentation [84.2925550033094]
ほとんどショットのセグメンテーションは、限られたトレーニングサンプルで見えないオブジェクトインスタンスをセグメンテーションするためのモデルの一般化に焦点を当てている。
本稿では,クエリの抽出した特徴とサポートイメージのギャップを埋めるフレームワーク BriNet を提案する。
本フレームワークの有効性は,他の競合手法よりも優れる実験結果によって実証された。
論文 参考訳(メタデータ) (2020-08-14T07:45:50Z) - Commonality-Parsing Network across Shape and Appearance for Partially
Supervised Instance Segmentation [71.59275788106622]
そこで本稿では,マスク付分類から新しい分類へ一般化可能な,クラス非依存の共通性について考察する。
本モデルでは,COCOデータセット上のサンプルセグメンテーションにおける部分教師付き設定と少数ショット設定の両方において,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-24T07:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。