論文の概要: Global Knowledge Calibration for Fast Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2303.09181v1
- Date: Thu, 16 Mar 2023 09:51:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 16:08:28.791952
- Title: Global Knowledge Calibration for Fast Open-Vocabulary Segmentation
- Title(参考訳): 高速オープンボキャブラリーセグメンテーションのためのグローバル知識キャリブレーション
- Authors: Kunyang Han, Yong Liu, Jun Hao Liew, Henghui Ding, Yunchao Wei, Jiajun
Liu, Yitong Wang, Yansong Tang, Yujiu Yang, Jiashi Feng, Yao Zhao
- Abstract要約: 本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
- 参考スコア(独自算出の注目度): 124.74256749281625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in pre-trained vision-language models, such as CLIP, have
enabled the segmentation of arbitrary concepts solely from textual inputs, a
process commonly referred to as open-vocabulary semantic segmentation (OVS).
However, existing OVS techniques confront a fundamental challenge: the trained
classifier tends to overfit on the base classes observed during training,
resulting in suboptimal generalization performance to unseen classes. To
mitigate this issue, recent studies have proposed the use of an additional
frozen pre-trained CLIP for classification. Nonetheless, this approach incurs
heavy computational overheads as the CLIP vision encoder must be repeatedly
forward-passed for each mask, rendering it impractical for real-world
applications. To address this challenge, our objective is to develop a fast OVS
model that can perform comparably or better without the extra computational
burden of the CLIP image encoder during inference. To this end, we propose a
core idea of preserving the generalizable representation when fine-tuning on
known classes. Specifically, we introduce a text diversification strategy that
generates a set of synonyms for each training category, which prevents the
learned representation from collapsing onto specific known category names.
Additionally, we employ a text-guided knowledge distillation method to preserve
the generalizable knowledge of CLIP. Extensive experiments demonstrate that our
proposed model achieves robust generalization performance across various
datasets. Furthermore, we perform a preliminary exploration of open-vocabulary
video segmentation and present a benchmark that can facilitate future
open-vocabulary research in the video domain.
- Abstract(参考訳): CLIPのような事前学習された視覚言語モデルの最近の進歩により、テキスト入力のみから任意の概念のセグメンテーションが可能になった。
しかし、既存のOVS技術は基本的な課題に直面しており、訓練された分類器はトレーニング中に観察される基本クラスに過度に適合する傾向にあり、その結果、見当たらないクラスに最適化性能をもたらす。
この問題を軽減するために、最近の研究は、分類のために追加の凍結事前訓練クリップの使用を提案している。
それでもこのアプローチは、CLIPビジョンエンコーダを各マスクに対して繰り返し前方通過する必要があるため、計算上のオーバーヘッドを発生させるため、現実のアプリケーションでは現実的ではない。
この課題に対処するため、我々の目標は、推論中にCLIP画像エンコーダの余分な計算負担を伴わずに、コンパチブルまたはより優れた動作が可能な高速OVSモデルを開発することである。
そこで本研究では,既知のクラスを微調整する場合に一般化表現を保存するという基本概念を提案する。
具体的には,各学習カテゴリの同義語群を生成するテキスト多様化戦略を導入し,学習した表現が特定のカテゴリ名に衝突しないようにする。
さらに,CLIPの一般化可能な知識を保存するために,テキスト誘導型知識蒸留法を採用した。
大規模な実験により,提案モデルが様々なデータセットにまたがる堅牢な一般化性能を実現することを示す。
さらに,オープン語彙ビデオセグメンテーションの予備検討を行い,ビデオ領域におけるオープン語彙研究を促進するためのベンチマークを示す。
関連論文リスト
- StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization [28.10120490665088]
textscStyLIPはドメインに依存しない素早い学習戦略に基づくドメイン一般化の新しいアプローチである。
textscStyLIPは、関連する最先端手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-02-18T07:36:16Z) - Class Enhancement Losses with Pseudo Labels for Zero-shot Semantic
Segmentation [40.09476732999614]
マスクの提案モデルは、ゼロショットセマンティックセグメンテーションの性能を大幅に改善した。
トレーニング中にバックグラウンドを埋め込むことは問題であり、結果として得られたモデルが過剰に学習し、正しいラベルではなく、すべての見えないクラスをバックグラウンドクラスとして割り当てる傾向がある。
本稿では,学習中の背景埋め込みの使用を回避し,テキスト埋め込みとマスク提案のセマンティックな関係を類似度スコアのランク付けにより活用する新しいクラス拡張損失を提案する。
論文 参考訳(メタデータ) (2023-01-18T06:55:02Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - Panoster: End-to-end Panoptic Segmentation of LiDAR Point Clouds [81.12016263972298]
我々は,LiDAR点雲のための提案不要なパノプティックセグメンテーション手法であるパノスターを提案する。
従来のアプローチとは異なり、Panosterでは、インスタンスを識別するための学習ベースのクラスタリングソリューションを組み込んだ、シンプルなフレームワークを提案している。
推論時に、これはクラスに依存しないセグメンテーションとして機能し、パノスターは高速で、精度の点で先行メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-10-28T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。