論文の概要: Open-Vocabulary Segmentation with Semantic-Assisted Calibration
- arxiv url: http://arxiv.org/abs/2312.04089v1
- Date: Thu, 7 Dec 2023 07:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:53:55.654182
- Title: Open-Vocabulary Segmentation with Semantic-Assisted Calibration
- Title(参考訳): セマンティクスアシストキャリブレーションを用いた開語彙セグメンテーション
- Authors: Yong Liu, Sule Bai, Guanbin Li, Yitong Wang, Yansong Tang
- Abstract要約: オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
- 参考スコア(独自算出の注目度): 73.39366775301382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies open-vocabulary segmentation (OVS) through calibrating
in-vocabulary and domain-biased embedding space with generalized contextual
prior of CLIP. As the core of open-vocabulary understanding, alignment of
visual content with the semantics of unbounded text has become the bottleneck
of this field. To address this challenge, recent works propose to utilize CLIP
as an additional classifier and aggregate model predictions with CLIP
classification results. Despite their remarkable progress, performance of OVS
methods in relevant scenarios is still unsatisfactory compared with supervised
counterparts. We attribute this to the in-vocabulary embedding and
domain-biased CLIP prediction. To this end, we present a Semantic-assisted
CAlibration Network (SCAN). In SCAN, we incorporate generalized semantic prior
of CLIP into proposal embedding to avoid collapsing on known categories.
Besides, a contextual shift strategy is applied to mitigate the lack of global
context and unnatural background noise. With above designs, SCAN achieves
state-of-the-art performance on all popular open-vocabulary segmentation
benchmarks. Furthermore, we also focus on the problem of existing evaluation
system that ignores semantic duplication across categories, and propose a new
metric called Semantic-Guided IoU (SG-IoU).
- Abstract(参考訳): 本稿では,CLIP に先立って,語彙内およびドメインバイアスの埋め込み空間を一般化した文脈で校正することで,OVS(open-vocabulary segmentation)について検討する。
オープンボキャブラリー理解の核心として、視覚コンテンツと境界のないテキストの意味論との整合がこの分野のボトルネックとなっている。
この課題に対処するため、最近の研究では、CLIPを追加の分類器として利用し、CLIP分類結果を集約したモデル予測を提案する。
目覚ましい進歩にもかかわらず、関連するシナリオにおけるOVSメソッドのパフォーマンスは、教師付き手法と比べてまだ不十分である。
これは語彙内埋め込みとドメインバイアスのCLIP予測によるものである。
そこで本研究では,scan(semantic-assisted calibration network)を提案する。
SCANでは、CLIPの前に一般化されたセマンティクスを組込み、既知のカテゴリの崩壊を避ける。
さらに、グローバルコンテキストと不自然なバックグラウンドノイズの欠如を軽減するために、コンテキストシフト戦略が適用されます。
上記の設計により、SCANはすべての人気のあるオープン語彙セグメンテーションベンチマークで最先端のパフォーマンスを達成する。
さらに,カテゴリ間の意味的重複を無視する既存の評価システムの問題にも着目し,セマンティックガイドIoU(SG-IoU)と呼ばれる新しい指標を提案する。
関連論文リスト
- ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference [32.852004564832455]
我々はCLIPのアーキテクチャを再検討し、残余接続をセグメンテーション品質を劣化させるノイズの主源として同定する。
オープン語彙セマンティックセグメンテーションを強化するためにCLIPの表現を分解する新しいアプローチであるClearCLIPを提案する。
論文 参考訳(メタデータ) (2024-07-17T09:52:20Z) - Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation [38.16802763051431]
トレーニング不要なセマンティックセグメンテーション戦略であるCLIPtraseを提案する。
パッチ間の自己相関を補正することで、局所的な特徴認識を高める。
実験の結果、CLIPよりも平均して9つのセグメンテーションベンチマークで22.3%先行していることがわかった。
論文 参考訳(メタデータ) (2024-07-11T08:12:16Z) - EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment [28.983503845298824]
本稿では,一般化可能な局所意味論とオブジェクトレベルの予測とのギャップを埋めるために,早期Dense Alignment (EDA)を提案する。
EDAでは、局所的なきめ細かなセマンティクスを維持するために、オブジェクトレベルのアライメントではなく、オブジェクトレベルのインシデントを学習するためにオブジェクトレベルのインシデントを使用します。
論文 参考訳(メタデータ) (2023-09-03T12:04:14Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided
Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。
このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。
本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:40:52Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。