論文の概要: Global Knowledge Calibration for Fast Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2303.09181v2
- Date: Sat, 15 Jul 2023 05:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 23:01:20.379961
- Title: Global Knowledge Calibration for Fast Open-Vocabulary Segmentation
- Title(参考訳): 高速オープンボキャブラリーセグメンテーションのためのグローバル知識キャリブレーション
- Authors: Kunyang Han, Yong Liu, Jun Hao Liew, Henghui Ding, Yunchao Wei, Jiajun
Liu, Yitong Wang, Yansong Tang, Yujiu Yang, Jiashi Feng, Yao Zhao
- Abstract要約: 本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
- 参考スコア(独自算出の注目度): 124.74256749281625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in pre-trained vision-language models, such as CLIP, have
enabled the segmentation of arbitrary concepts solely from textual inputs, a
process commonly referred to as open-vocabulary semantic segmentation (OVS).
However, existing OVS techniques confront a fundamental challenge: the trained
classifier tends to overfit on the base classes observed during training,
resulting in suboptimal generalization performance to unseen classes. To
mitigate this issue, recent studies have proposed the use of an additional
frozen pre-trained CLIP for classification. Nonetheless, this approach incurs
heavy computational overheads as the CLIP vision encoder must be repeatedly
forward-passed for each mask, rendering it impractical for real-world
applications. To address this challenge, our objective is to develop a fast OVS
model that can perform comparably or better without the extra computational
burden of the CLIP image encoder during inference. To this end, we propose a
core idea of preserving the generalizable representation when fine-tuning on
known classes. Specifically, we introduce a text diversification strategy that
generates a set of synonyms for each training category, which prevents the
learned representation from collapsing onto specific known category names.
Additionally, we employ a text-guided knowledge distillation method to preserve
the generalizable knowledge of CLIP. Extensive experiments demonstrate that our
proposed model achieves robust generalization performance across various
datasets. Furthermore, we perform a preliminary exploration of open-vocabulary
video segmentation and present a benchmark that can facilitate future
open-vocabulary research in the video domain.
- Abstract(参考訳): CLIPのような事前学習された視覚言語モデルの最近の進歩により、テキスト入力のみから任意の概念のセグメンテーションが可能になった。
しかし、既存のOVS技術は基本的な課題に直面しており、訓練された分類器はトレーニング中に観察される基本クラスに過度に適合する傾向にあり、その結果、見当たらないクラスに最適化性能をもたらす。
この問題を軽減するために、最近の研究は、分類のために追加の凍結事前訓練クリップの使用を提案している。
それでもこのアプローチは、CLIPビジョンエンコーダを各マスクに対して繰り返し前方通過する必要があるため、計算上のオーバーヘッドを発生させるため、現実のアプリケーションでは現実的ではない。
この課題に対処するため、我々の目標は、推論中にCLIP画像エンコーダの余分な計算負担を伴わずに、コンパチブルまたはより優れた動作が可能な高速OVSモデルを開発することである。
そこで本研究では,既知のクラスを微調整する場合に一般化表現を保存するという基本概念を提案する。
具体的には,各学習カテゴリの同義語群を生成するテキスト多様化戦略を導入し,学習した表現が特定のカテゴリ名に衝突しないようにする。
さらに,CLIPの一般化可能な知識を保存するために,テキスト誘導型知識蒸留法を採用した。
大規模な実験により,提案モデルが様々なデータセットにまたがる堅牢な一般化性能を実現することを示す。
さらに,オープン語彙ビデオセグメンテーションの予備検討を行い,ビデオ領域におけるオープン語彙研究を促進するためのベンチマークを示す。
関連論文リスト
- FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation [47.0028071183214]
FrozenSegは、局所化基盤モデル(SAMなど)とViLモデル(CLIPなど)から抽出した意味知識から空間知識を統合するように設計されている。
FrozenSegは、さまざまなセグメンテーションベンチマークにまたがって最先端の結果を前進させ、COCOパン光学データのみにトレーニングし、ゼロショットでテストする。
論文 参考訳(メタデータ) (2024-09-05T13:36:50Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。