論文の概要: Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen
Convolutional CLIP
- arxiv url: http://arxiv.org/abs/2308.02487v2
- Date: Tue, 14 Nov 2023 19:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:02:37.034312
- Title: Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen
Convolutional CLIP
- Title(参考訳): 畳み込みは激しくなる: シングル冷凍畳み込みCLIPによるオープンボキャブラリセグメンテーション
- Authors: Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen
- Abstract要約: 我々は、共有されたFrozen Convolutional CLIPバックボーンを使用して、すべてを単一のステージフレームワークに構築することを提案する。
FC-CLIPは、様々なオープン語彙セマンティックセグメンテーションデータセットにまたがって、最先端のパフォーマンスを新たに設定する。
- 参考スコア(独自算出の注目度): 28.103358632241104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary segmentation is a challenging task requiring segmenting and
recognizing objects from an open set of categories. One way to address this
challenge is to leverage multi-modal models, such as CLIP, to provide image and
text features in a shared embedding space, which bridges the gap between
closed-vocabulary and open-vocabulary recognition. Hence, existing methods
often adopt a two-stage framework to tackle the problem, where the inputs first
go through a mask generator and then through the CLIP model along with the
predicted masks. This process involves extracting features from images multiple
times, which can be ineffective and inefficient. By contrast, we propose to
build everything into a single-stage framework using a shared Frozen
Convolutional CLIP backbone, which not only significantly simplifies the
current two-stage pipeline, but also remarkably yields a better accuracy-cost
trade-off. The proposed FC-CLIP, benefits from the following observations: the
frozen CLIP backbone maintains the ability of open-vocabulary classification
and can also serve as a strong mask generator, and the convolutional CLIP
generalizes well to a larger input resolution than the one used during
contrastive image-text pretraining. When training on COCO panoptic data only
and testing in a zero-shot manner, FC-CLIP achieve 26.8 PQ, 16.8 AP, and 34.1
mIoU on ADE20K, 18.2 PQ, 27.9 mIoU on Mapillary Vistas, 44.0 PQ, 26.8 AP, 56.2
mIoU on Cityscapes, outperforming the prior art by +4.2 PQ, +2.4 AP, +4.2 mIoU
on ADE20K, +4.0 PQ on Mapillary Vistas and +20.1 PQ on Cityscapes,
respectively. Additionally, the training and testing time of FC-CLIP is 7.5x
and 6.6x significantly faster than the same prior art, while using 5.9x fewer
parameters. FC-CLIP also sets a new state-of-the-art performance across various
open-vocabulary semantic segmentation datasets. Code at
https://github.com/bytedance/fc-clip
- Abstract(参考訳): オープン語彙のセグメンテーションは、オープンなカテゴリからオブジェクトのセグメンテーションと認識を必要とする難しいタスクである。
この課題に対処する1つの方法は、クリップのようなマルチモーダルモデルを利用して、クローズドボキャブラリーとオープンボキャブラリー認識のギャップを埋める共有埋め込み空間に画像とテキストの機能を提供することである。
したがって、既存の手法では、2段階の枠組みを採用して問題に対処し、入力はまずマスクジェネレータを通り、次に予測されたマスクと共にクリップモデルを通過する。
このプロセスでは、画像から複数の特徴を抽出するが、これは非効率で非効率である。
対照的に、私たちは共有のFrozen Convolutional CLIPバックボーンを使用して、すべてのものを単一ステージフレームワークに組み込むことを提案しています。
凍結したCLIPバックボーンは、オープンボキャブラリ分類の能力を維持し、強力なマスクジェネレータとしても機能し、畳み込みCLIPは、コントラスト的な画像テキスト事前訓練で使用されるものよりも大きな入力解像度によく一般化する。
FC-CLIPは、COCO汎視データのみをゼロショットでトレーニングしテストする場合、ADE20Kで26.8 PQ、16.8 AP、34.1 mIoU、ADE20Kで18.2 PQ、27.9 mIoU、Mapillary Vistasで44.0 PQ、26.8 AP、56.2 mIoU、Cityscapesで+4.2 PQ、+2.4 AP、+4.2 mIoU、Mapillary Vistasで+4.0 PQ、Cityscapesで+20.1 PQを達成した。
さらに、FC-CLIPのトレーニングとテスト時間は7.5倍と6.6倍であり、パラメータは5.9倍少ない。
FC-CLIPはまた、様々なオープン語彙セマンティックセグメンテーションデータセットに対して、最先端のパフォーマンスを新たに設定する。
https://github.com/bytedance/fc-clip
関連論文リスト
- FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval [10.26297663751352]
CMR (Few-shot Cross-Modal Search) は、ターゲットドメインと別のモダリティで意味的に類似したインスタンスを検索する。
CLIPのような視覚言語による事前学習手法は、非常に少ないショットまたはゼロショットの学習性能を示している。
これらの課題に対処するために,新しい特徴レベル生成ネットワーク強化CLIPであるFLEX-CLIPを提案する。
論文 参考訳(メタデータ) (2024-11-26T14:12:14Z) - Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation [79.66299178949257]
オープンボキャブラリセマンティックセグメンテーションは、画像中の各ピクセルに任意のテキスト記述をラベル付けしようとする。
視覚言語基盤モデル、特にCLIPは、オープン語彙能力を取得するための強力なツールとして登場した。
H-CLIPは、CLIPの総パラメータの約4%を更新するだけで、新しいSOTAオープン語彙セマンティックセマンティックセマンティクス結果を達成する。
論文 参考訳(メタデータ) (2024-05-29T07:41:34Z) - CLIP-DINOiser: Teaching CLIP a few DINO tricks for open-vocabulary semantic segmentation [31.264574799748903]
アノテーションを必要としないオープン語彙セマンティックセマンティックセマンティクス法を提案する。
使用済みの自己教師機能プロパティは,CLIP機能から直接学習可能であることを示す。
我々のCLIP-DINOiser法は,CLIPの1つの前方通過と2つの軽い畳み込み層のみを必要とする。
論文 参考訳(メタデータ) (2023-12-19T17:40:27Z) - Learning Mask-aware CLIP Representations for Zero-Shot Segmentation [120.97144647340588]
Mask-awareProposals CLIP (IP-CLIP) は任意の数の画像とマスクの提案を同時に処理するために提案されている。
マスク認識損失と自己蒸留損失はIP-CLIPを微調整するように設計されており、CLIPが異なるマスク提案に応答することを保証している。
我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-30T03:27:31Z) - VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - You Only Segment Once: Towards Real-Time Panoptic Segmentation [68.91492389185744]
YOSOはリアルタイムのパン光学セグメンテーションフレームワークである。
YOSOは、パン光学カーネルと画像特徴マップの間の動的畳み込みを通じてマスクを予測する。
YOSOは、COCOで46.4 PQ、45.6 FPS、都市景観で52.5 PQ、22.6 FPS、ADE20Kで38.0 PQ、35.4 FPSを達成している。
論文 参考訳(メタデータ) (2023-03-26T07:55:35Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - Supervision Exists Everywhere: A Data Efficient Contrastive
Language-Image Pre-training Paradigm [109.0573737034428]
大規模コントラスト言語-画像事前訓練(CLIP)は、その印象的なゼロショット認識能力と下流タスクへの優れた転送性により、前例のない注目を集めている。
本研究は,この制限を緩和する新たなトレーニングパラダイムであるData efficient CLIP (DeCLIP)を提案する。
画像とテキストのペア間の広範な監視を慎重に活用することにより、De-CLIPは汎用的な視覚的特徴をより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-10-11T12:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。