論文の概要: ReCLIP++: Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2408.06747v1
- Date: Tue, 13 Aug 2024 09:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 18:07:03.006810
- Title: ReCLIP++: Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation
- Title(参考訳): ReCLIP++: 教師なしセマンティックセグメンテーションのためのCLIPのバイアスの明確化を学ぶ
- Authors: Jingyun Wang, Guoliang Kang,
- Abstract要約: 教師なしセマンティックセグメンテーション作業を容易にするために,CLIP に存在するバイアスを明示的にモデル化し,修正することを提案する。
学習可能な'参照'プロンプトを用いて、クラス参照バイアスを符号化し、視覚変換器に位置埋め込みを投影し、空間参照バイアスを符号化する。
バイアスモデリング及び修正プロセスを有意義かつ効果的にするために、マスキングされた視覚特徴と異なるクラスのテキスト特徴とに基づく対照的な損失を課す。
- 参考スコア(独自算出の注目度): 6.012828781329036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works utilize CLIP to perform the challenging unsupervised semantic segmentation task where only images without annotations are available. However, we observe that when adopting CLIP to such a pixel-level understanding task, unexpected bias (including class-preference bias and space-preference bias) occurs. Previous works don't explicitly model the bias, which largely constrains the segmentation performance. In this paper, we propose to explicitly model and rectify the bias existing in CLIP to facilitate the unsupervised semantic segmentation task. Specifically, we design a learnable ''Reference'' prompt to encode class-preference bias and a projection of the positional embedding in vision transformer to encode space-preference bias respectively. To avoid interference, two kinds of biases are firstly independently encoded into the Reference feature and the positional feature. Via a matrix multiplication between two features, a bias logit map is generated to explicitly represent two kinds of biases. Then we rectify the logits of CLIP via a simple element-wise subtraction. To make the rectified results smoother and more contextual, we design a mask decoder which takes the feature of CLIP and rectified logits as input and outputs a rectified segmentation mask with the help of Gumbel-Softmax operation. To make the bias modeling and rectification process meaningful and effective, a contrastive loss based on masked visual features and the text features of different classes is imposed. To further improve the segmentation, we distill the knowledge from the rectified CLIP to the advanced segmentation architecture via minimizing our designed mask-guided, feature-guided and text-guided loss terms. Extensive experiments on various benchmarks demonstrate that ReCLIP++ performs favorably against previous SOTAs. The implementation is available at: https://github.com/dogehhh/ReCLIP.
- Abstract(参考訳): 最近の研究では、CLIPを使用して、アノテーションのない画像のみが利用可能な、教師なしセマンティックセマンティックセマンティクスタスクを実行している。
しかし,このようなピクセルレベルの理解タスクにCLIPを採用すると,予期せぬバイアス(クラス参照バイアスや空間参照バイアスを含む)が発生することが観察された。
それまでの作業は、偏見を明示的にモデル化するものではありません。
本稿では,CLIPに存在するバイアスを明示的にモデル化し,修正し,教師なしセマンティックセマンティックセマンティクス作業を容易にすることを提案する。
具体的には、クラス参照バイアスを符号化する学習可能な'参照'プロンプトと、空間参照バイアスをそれぞれ符号化するビジョントランスフォーマーへの位置埋め込みの投影を設計する。
干渉を避けるために、まず2種類のバイアスを基準特徴と位置特徴に独立に符号化する。
2つの特徴間の行列乗法により、2種類のバイアスを明示的に表すバイアスロジットマップが生成される。
次に、簡単な要素単位の減算によってCLIPのロジットを修正します。
修正結果をよりスムーズかつコンテキスト的にするために,CLIPと修正ロジットを入力として取り込んだマスクデコーダを設計し,Gumbel-Softmax操作の助けを借りて修正セグメンテーションマスクを出力する。
バイアスモデリング及び修正プロセスを有意義かつ効果的にするために、マスキングされた視覚特徴と異なるクラスのテキスト特徴とに基づく対照的な損失を課す。
さらにセグメンテーションを改善するため、我々は、修正CLIPから高度なセグメンテーションアーキテクチャへの知識を、設計したマスク誘導型、特徴誘導型、テキスト誘導型損失項を最小化することで、蒸留する。
様々なベンチマーク実験により、ReCLIP++は以前のSOTAに対して好意的に機能することが示された。
実装は、https://github.com/dogehhh/ReCLIP.comで公開されている。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文 参考訳(メタデータ) (2024-06-17T03:49:47Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic
Segmentation [25.070027668717422]
一般化ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、見えないクラスと見えないクラスのピクセルワイズセマンティックラベルを予測する。
ほとんどのGZS3メソッドは、対応するセマンティックなクラスから見えないクラスの視覚的特徴を合成する生成的アプローチを採用している。
統一されたフレームワークにおける制限に対処するための差別的アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-14T13:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。