論文の概要: ReCLIP++: Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2408.06747v2
- Date: Wed, 08 Jan 2025 13:49:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:53:28.978553
- Title: ReCLIP++: Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation
- Title(参考訳): ReCLIP++: 教師なしセマンティックセグメンテーションのためのCLIPのバイアスの明確化を学ぶ
- Authors: Jingyun Wang, Guoliang Kang,
- Abstract要約: 教師なしセマンティックセグメンテーション作業を容易にするために,CLIP に存在するバイアスを明示的にモデル化し,修正することを提案する。
具体的には、クラス参照バイアスを符号化する学習可能な"参照"プロンプトと、空間参照バイアスを符号化するビジョントランスフォーマーへの位置埋め込みの投影を設計する。
我々の手法は過去の最先端技術に対して好適に機能する。
- 参考スコア(独自算出の注目度): 6.012828781329036
- License:
- Abstract: Recent works utilize CLIP to perform the challenging unsupervised semantic segmentation task where only images without annotations are available. However, we observe that when adopting CLIP to such a pixel-level understanding task, unexpected bias (including class-preference bias and space-preference bias) occurs. Previous works don't explicitly model the bias, which largely constrains the segmentation performance. In this paper, we propose to explicitly model and rectify the bias existing in CLIP to facilitate the unsupervised semantic segmentation task. Specifically, we design a learnable "Reference" prompt to encode class-preference bias and a projection of the positional embedding in the vision transformer to encode space-preference bias respectively. To avoid interference, two kinds of biases are firstly independently encoded into different features, i.e., the Reference feature and the positional feature. Via a matrix multiplication between the Reference feature and the positional feature, a bias logit map is generated to explicitly represent two kinds of biases. Then we rectify the logits of CLIP via a simple element-wise subtraction. To make the rectified results smoother and more contextual, we design a mask decoder which takes the feature of CLIP and the rectified logits as input and outputs a rectified segmentation mask with the help of Gumbel-Softmax operation. A contrastive loss based on the masked visual features and the text features of different classes is imposed, which makes the bias modeling and rectification process meaningful and effective. Extensive experiments on various benchmarks including PASCAL VOC, PASCAL Context, ADE20K, Cityscapes, and COCO Stuff demonstrate that our method performs favorably against previous state-of-the-arts. The implementation is available at: https://github.com/dogehhh/ReCLIP.
- Abstract(参考訳): 最近の研究では、CLIPを使用して、アノテーションのない画像のみが利用可能な、教師なしセマンティックセマンティックセマンティクスタスクを実行している。
しかし,このような画素レベルの理解タスクにCLIPを採用すると,予期せぬバイアス(クラス参照バイアスや空間参照バイアスを含む)が発生することが観察された。
それまでの作業は、偏見を明示的にモデル化するものではありません。
本稿では,CLIPに存在するバイアスを明示的にモデル化し,修正し,教師なしセマンティックセマンティックセマンティクス作業を容易にすることを提案する。
具体的には、クラス参照バイアスをエンコードする学習可能な"参照"プロンプトと、空間参照バイアスをエンコードする視覚変換器における位置埋め込みのプロジェクションを設計する。
干渉を避けるために、まず2種類のバイアスが独立して異なる特徴、すなわち参照特徴と位置特徴に符号化される。
参照特徴と位置特徴との行列乗算により、バイアスロジットマップを生成し、2種類のバイアスを明確に表現する。
次に、簡単な要素単位の減算によってCLIPのロジットを修正します。
修正結果をよりスムーズかつコンテキスト的にするために,CLIPと修正ロジットを入力として取り込んだマスクデコーダを設計し,Gumbel-Softmax操作の助けを借りて修正セグメンテーションマスクを出力する。
マスキングされた視覚特徴と異なるクラスのテキスト特徴に基づく対照的な損失が課せられ、バイアスモデリングと修正プロセスが有意義かつ効果的になる。
PASCAL VOC, PASCAL Context, ADE20K, Cityscapes, COCO Stuff など,様々なベンチマークによる大規模な実験により, 本手法が従来の最先端技術に対して良好に動作することを示した。
実装は、https://github.com/dogehhh/ReCLIP.comで公開されている。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文 参考訳(メタデータ) (2024-06-17T03:49:47Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic
Segmentation [25.070027668717422]
一般化ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、見えないクラスと見えないクラスのピクセルワイズセマンティックラベルを予測する。
ほとんどのGZS3メソッドは、対応するセマンティックなクラスから見えないクラスの視覚的特徴を合成する生成的アプローチを採用している。
統一されたフレームワークにおける制限に対処するための差別的アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-14T13:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。