論文の概要: Split Matching for Inductive Zero-shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2505.05023v1
- Date: Thu, 08 May 2025 07:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.796236
- Title: Split Matching for Inductive Zero-shot Semantic Segmentation
- Title(参考訳): インダクティブゼロショットセマンティックセマンティックセグメンテーションのためのスプリットマッチング
- Authors: Jialei Chen, Xu Zheng, Dongyue Li, Chong Yi, Seigo Ito, Danda Pani Paudel, Luc Van Gool, Hiroshi Murase, Daisuke Deguchi,
- Abstract要約: Zero-shot Semantic (ZSS)は、トレーニング中にアノテートされていないカテゴリをセグメントすることを目的としている。
ハンガリーのマッチングを2つのコンポーネントに分離する新しい割当て戦略であるSplit Matching (SM)を提案する。
SMは、インダクティブZSS設定の下で最初に分離されたハンガリー語マッチングを導入し、2つの標準ベンチマークで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 52.90218623214213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot Semantic Segmentation (ZSS) aims to segment categories that are not annotated during training. While fine-tuning vision-language models has achieved promising results, these models often overfit to seen categories due to the lack of supervision for unseen classes. As an alternative to fully supervised approaches, query-based segmentation has shown great latent in ZSS, as it enables object localization without relying on explicit labels. However, conventional Hungarian matching, a core component in query-based frameworks, needs full supervision and often misclassifies unseen categories as background in the setting of ZSS. To address this issue, we propose Split Matching (SM), a novel assignment strategy that decouples Hungarian matching into two components: one for seen classes in annotated regions and another for latent classes in unannotated regions (referred to as unseen candidates). Specifically, we partition the queries into seen and candidate groups, enabling each to be optimized independently according to its available supervision. To discover unseen candidates, we cluster CLIP dense features to generate pseudo masks and extract region-level embeddings using CLS tokens. Matching is then conducted separately for the two groups based on both class-level similarity and mask-level consistency. Additionally, we introduce a Multi-scale Feature Enhancement (MFE) module that refines decoder features through residual multi-scale aggregation, improving the model's ability to capture spatial details across resolutions. SM is the first to introduce decoupled Hungarian matching under the inductive ZSS setting, and achieves state-of-the-art performance on two standard benchmarks.
- Abstract(参考訳): Zero-shot Semantic Segmentation (ZSS)は、トレーニング中にアノテートされていないカテゴリをセグメントすることを目的としている。
微調整された視覚言語モデルは有望な結果を得たが、これらのモデルは、目に見えないクラスの監督が欠如しているため、カテゴリに過度に適合することが多い。
完全に教師されたアプローチの代替として、クエリベースのセグメンテーションは、明示的なラベルに頼ることなくオブジェクトのローカライゼーションを可能にするため、ZSSにおいて大きな潜在性を示している。
しかし、クエリベースのフレームワークの中核的なコンポーネントである従来のハンガリーのマッチングは、完全な監視を必要とし、しばしばZSSの設定の背景として目に見えないカテゴリを誤って分類する。
この問題に対処するために,ハンガリーのマッチングを2つのコンポーネントに分割する新しい割当て戦略であるSplit Matching (SM)を提案する。
具体的には、クエリを目視グループと候補グループに分割し、それぞれが利用可能な監視に従って独立して最適化できるようにします。
未知の候補を見つけるために、CLIPの密集した特徴をクラスタ化して擬似マスクを生成し、CLSトークンを用いて領域レベルの埋め込みを抽出する。
次に、クラスレベルの類似性とマスクレベルの整合性の両方に基づいて、2つのグループに対してマッチングを別々に行う。
さらに,デコーダ機能を改良したマルチスケール機能拡張(MFE)モジュールを導入した。
SMは、インダクティブZSS設定の下で最初に分離されたハンガリー語マッチングを導入し、2つの標準ベンチマークで最先端のパフォーマンスを達成した。
関連論文リスト
- Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Localization and Expansion: A Decoupled Framework for Point Cloud Few-shot Semantic Segmentation [39.7657197805346]
Point Cloud few-shot semantic segmentation (PC-FSS)は、特定のクエリポイントクラウドに、いくつかのアノテーション付きのサポートサンプルで、新しいカテゴリのターゲットをセグメントすることを目的としている。
本稿では,DLE(Decoupled Localization and Expansion)の精神における,シンプルで効果的な枠組みを提案する。
構造的ローカライゼーションモジュール(SLM)と自己拡張モジュール(SEM)を含むDLEは、いくつかのメリットを享受している。
論文 参考訳(メタデータ) (2024-08-25T07:34:32Z) - Anchor-based Multi-view Subspace Clustering with Hierarchical Feature Descent [46.86939432189035]
階層的特徴Descentを用いたアンカーベースマルチビューサブスペースクラスタリングを提案する。
提案手法は最先端技術より一貫して優れている。
論文 参考訳(メタデータ) (2023-10-11T03:29:13Z) - Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。
FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。
本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文 参考訳(メタデータ) (2022-03-29T16:14:40Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Zero-Shot Semantic Segmentation via Spatial and Multi-Scale Aware Visual
Class Embedding [0.0]
言語モデルなしゼロショットセマンティックセマンティックセマンティクスフレームワークSM-VCENet(Spatial and Multi-scale aware Visual Class Embedding Network)を提案する。
実験では、SM-VCENetはゼロショットセマンティックセマンティックセグメンテーションを相対的なマージンで上回ります。
論文 参考訳(メタデータ) (2021-11-30T07:39:19Z) - Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-20T17:56:47Z) - Commonality-Parsing Network across Shape and Appearance for Partially
Supervised Instance Segmentation [71.59275788106622]
そこで本稿では,マスク付分類から新しい分類へ一般化可能な,クラス非依存の共通性について考察する。
本モデルでは,COCOデータセット上のサンプルセグメンテーションにおける部分教師付き設定と少数ショット設定の両方において,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-24T07:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。