論文の概要: FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2409.03525v1
- Date: Thu, 5 Sep 2024 13:36:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 20:28:22.297739
- Title: FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation
- Title(参考訳): FrozenSeg: オープンボキャブラリセグメンテーションのためのフリーズファンデーションモデル
- Authors: Xi Chen, Haosen Yang, Sheng Jin, Xiatian Zhu, Hongxun Yao,
- Abstract要約: FrozenSegは、局所化基盤モデル(SAMなど)とViLモデル(CLIPなど)から抽出した意味知識から空間知識を統合するように設計されている。
FrozenSegは、さまざまなセグメンテーションベンチマークにまたがって最先端の結果を前進させ、COCOパン光学データのみにトレーニングし、ゼロショットでテストする。
- 参考スコア(独自算出の注目度): 47.0028071183214
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-vocabulary segmentation poses significant challenges, as it requires segmenting and recognizing objects across an open set of categories in unconstrained environments. Building on the success of powerful vision-language (ViL) foundation models, such as CLIP, recent efforts sought to harness their zero-short capabilities to recognize unseen categories. Despite notable performance improvements, these models still encounter the critical issue of generating precise mask proposals for unseen categories and scenarios, resulting in inferior segmentation performance eventually. To address this challenge, we introduce a novel approach, FrozenSeg, designed to integrate spatial knowledge from a localization foundation model (e.g., SAM) and semantic knowledge extracted from a ViL model (e.g., CLIP), in a synergistic framework. Taking the ViL model's visual encoder as the feature backbone, we inject the space-aware feature into the learnable queries and CLIP features within the transformer decoder. In addition, we devise a mask proposal ensemble strategy for further improving the recall rate and mask quality. To fully exploit pre-trained knowledge while minimizing training overhead, we freeze both foundation models, focusing optimization efforts solely on a lightweight transformer decoder for mask proposal generation-the performance bottleneck. Extensive experiments demonstrate that FrozenSeg advances state-of-the-art results across various segmentation benchmarks, trained exclusively on COCO panoptic data, and tested in a zero-shot manner. Code is available at https://github.com/chenxi52/FrozenSeg.
- Abstract(参考訳): オープン語彙のセグメンテーションは、制約のない環境において、オープンなカテゴリの集合をまたいだオブジェクトのセグメンテーションと認識を必要とするため、大きな課題を引き起こす。
CLIPのような強力な視覚言語(ViL)基盤モデルの成功に基づいて、最近の取り組みは、ゼロショート機能を活用して、目に見えないカテゴリを認識しようとした。
特筆すべき性能改善にもかかわらず、これらのモデルは未確認のカテゴリやシナリオの正確なマスク提案を生成するという重大な問題に直面しており、最終的にはセグメンテーション性能が劣る結果となった。
この課題に対処するため,我々は,VLモデル(例えば,CLIP)から抽出した局所化基盤モデル(例えばSAM)と意味的知識(例えば,CLIP)から空間的知識を統合するための新しいアプローチであるFrozenSegを導入する。
ViLモデルのビジュアルエンコーダを機能バックボーンとして、学習可能なクエリとCLIP機能に空間認識機能を注入する。
さらに,リコール率とマスク品質をさらに向上するためのマスク提案アンサンブル戦略を考案した。
トレーニングのオーバーヘッドを最小限に抑えつつ、事前学習した知識を完全に活用するために、我々は両方の基礎モデルを凍結し、マスクの提案生成のための軽量トランスフォーマーデコーダにのみ焦点をあてる。
大規模な実験により、FrozenSegは様々なセグメンテーションベンチマークで最先端の結果を前進させ、COCOパノプティクスデータのみにトレーニングし、ゼロショットでテストした。
コードはhttps://github.com/chenxi52/FrozenSegで入手できる。
関連論文リスト
- PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Fine-Grained Visual Prompting [35.032567257651515]
Fine-Grained Visual Prompting (FGVP) は参照表現のゼロショット理解において優れた性能を示す。
RefCOCO+ testAサブセットで最大12.5%改善され、平均マージンが3.0%から4.6%向上した。
論文 参考訳(メタデータ) (2023-06-07T11:39:56Z) - Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo
Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。
内在的な類似性のため、背景から隠された物体を区別することは困難である。
これら2つの課題に対処する新しいWSCOS手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:31:34Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。