論文の概要: Partial CLIP is Enough: Chimera-Seg for Zero-shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2506.22032v1
- Date: Fri, 27 Jun 2025 09:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.146634
- Title: Partial CLIP is Enough: Chimera-Seg for Zero-shot Semantic Segmentation
- Title(参考訳): 部分的CLIPは十分である:ゼロショットセマンティックセマンティックセグメンテーションのためのChimera-Seg
- Authors: Jialei Chen, Xu Zheng, Danda Pani Paudel, Luc Van Gool, Hiroshi Murase, Daisuke Deguchi,
- Abstract要約: 本稿では,体としてのセグメンテーションバックボーンと,頭部としてのCLIPベースのセマンティックヘッドを統合したChimera-Segを提案する。
特に、Chimera-Segはトレーニング可能なセグメンテーションモデルとCLIPセマンティックヘッド(CLIP Semantic Head, CSH)を備えており、CLIP対応空間に高密度な特徴をマッピングする。
また,CLIP CLSトークンと高い類似性を示す濃厚な特徴から知識を抽出する選択的グローバル蒸留(SGD)を提案する。
- 参考スコア(独自算出の注目度): 55.486872677160015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot Semantic Segmentation (ZSS) aims to segment both seen and unseen classes using supervision from only seen classes. Beyond adaptation-based methods, distillation-based approaches transfer vision-language alignment of vision-language model, e.g., CLIP, to segmentation models. However, such knowledge transfer remains challenging due to: (1) the difficulty of aligning vision-based features with the textual space, which requires combining spatial precision with vision-language alignment; and (2) the semantic gap between CLIP's global representations and the local, fine-grained features of segmentation models. To address challenge (1), we propose Chimera-Seg, which integrates a segmentation backbone as the body and a CLIP-based semantic head as the head, like the Chimera in Greek mythology, combining spatial precision with vision-language alignment. Specifically, Chimera-Seg comprises a trainable segmentation model and a CLIP Semantic Head (CSH), which maps dense features into the CLIP-aligned space. The CSH incorporates a frozen subnetwork and fixed projection layers from the CLIP visual encoder, along with lightweight trainable components. The partial module from CLIP visual encoder, paired with the segmentation model, retains segmentation capability while easing the mapping to CLIP's semantic space. To address challenge (2), we propose Selective Global Distillation (SGD), which distills knowledge from dense features exhibiting high similarity to the CLIP CLS token, while gradually reducing the number of features used for alignment as training progresses. Besides, we also use a Semantic Alignment Module (SAM) to further align dense visual features with semantic embeddings extracted from the frozen CLIP text encoder. Experiments on two benchmarks show improvements of 0.9% and 1.2% in hIoU.
- Abstract(参考訳): Zero-shot Semantic Segmentation (ZSS) は、目に見えないクラスと見えないクラスの両方を、目に見えないクラスのみから監督することを目的としている。
適応法以外にも、蒸留法に基づくアプローチは、視覚言語モデルの視覚言語アライメント(例えば、CLIP)をセグメンテーションモデルに転送する。
しかし,このような知識伝達の難しさは,(1)空間的精度と視覚的アライメントを組み合わせたテキスト空間の整合性の難しさ,(2)CLIPのグローバル表現とセグメンテーションモデルの局所的,きめ細かな特徴とのセグメンテーションの相違による。
課題(1)に対処するために,ギリシア神話のチメラのように,セグメンテーションバックボーンを本体として,CLIPベースのセマンティックヘッドを頭部として統合し,空間精度と視覚言語アライメントを組み合わせたチメラセグを提案する。
特に、Chimera-Segはトレーニング可能なセグメンテーションモデルとCLIPセマンティックヘッド(CLIP Semantic Head, CSH)を備えており、CLIP対応空間に高密度な特徴をマッピングする。
CSHには、軽量なトレーニング可能なコンポーネントとともに、冷凍サブネットワークとCLIPビジュアルエンコーダからの固定プロジェクションレイヤが含まれている。
セグメンテーションモデルと組み合わせたCLIPビジュアルエンコーダの部分モジュールは、セグメンテーション機能を保持しながら、CLIPの意味空間へのマッピングを緩和する。
課題(2)に対処するため,CLIP CLSトークンと高い類似性を示す高密度特徴から知識を抽出するSGD(Selective Global Distillation)を提案する。
さらに、セマンティックアライメントモジュール(SAM)を使用して、冷凍したCLIPテキストエンコーダから抽出したセマンティック埋め込みと密集した視覚的特徴をさらに整合させる。
2つのベンチマークの実験では、hIoUの0.9%と1.2%の改善が示されている。
関連論文リスト
- Split Matching for Inductive Zero-shot Semantic Segmentation [52.90218623214213]
Zero-shot Semantic (ZSS)は、トレーニング中にアノテートされていないカテゴリをセグメントすることを目的としている。
ハンガリーのマッチングを2つのコンポーネントに分離する新しい割当て戦略であるSplit Matching (SM)を提案する。
SMは、インダクティブZSS設定の下で最初に分離されたハンガリー語マッチングを導入し、2つの標準ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-08T07:56:30Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - [CLS] Token is All You Need for Zero-Shot Semantic Segmentation [60.06653755695356]
本稿では,事前学習された視覚言語モデルCLIPに基づく,恥ずかしいほどシンプルで効果的なゼロショットセマンティックセマンティックセマンティックセマンティクス(ZS3)法を提案する。
具体的には、テキストブランチから出力される[text]トークンを補助的なセマンティックプロンプトとして使用し、ViTベースのビジュアルエンコーダの浅い層におけるナビゲーション[text]トークンを置き換える。
提案したZS3法は,SOTA性能を達成し,その数発のセマンティックセマンティックセグメンテーション法と同等である。
論文 参考訳(メタデータ) (2023-04-13T01:35:07Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive
Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。
PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文 参考訳(メタデータ) (2022-12-09T17:23:00Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。