論文の概要: Bridging Semantic Gaps for Language-Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2309.13505v1
- Date: Sun, 24 Sep 2023 00:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 19:23:53.051490
- Title: Bridging Semantic Gaps for Language-Supervised Semantic Segmentation
- Title(参考訳): 言語教師付きセマンティクスセグメンテーションのための橋渡しセマンティクスギャップ
- Authors: Yun Xing, Jian Kang, Aoran Xiao, Jiahao Nie, Shao Ling, Shijian Lu
- Abstract要約: 本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
- 参考スコア(独自算出の注目度): 58.87541723274729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Pre-training has demonstrated its remarkable zero-shot
recognition ability and potential to learn generalizable visual representations
from language supervision. Taking a step ahead, language-supervised semantic
segmentation enables spatial localization of textual inputs by learning pixel
grouping solely from image-text pairs. Nevertheless, the state-of-the-art
suffers from clear semantic gaps between visual and textual modality: plenty of
visual concepts appeared in images are missing in their paired captions. Such
semantic misalignment circulates in pre-training, leading to inferior zero-shot
performance in dense predictions due to insufficient visual concepts captured
in textual representations. To close such semantic gap, we propose Concept
Curation (CoCu), a pipeline that leverages CLIP to compensate for the missing
semantics. For each image-text pair, we establish a concept archive that
maintains potential visually-matched concepts with our proposed vision-driven
expansion and text-to-vision-guided ranking. Relevant concepts can thus be
identified via cluster-guided sampling and fed into pre-training, thereby
bridging the gap between visual and textual semantics. Extensive experiments
over a broad suite of 8 segmentation benchmarks show that CoCu achieves superb
zero-shot transfer performance and greatly boosts language-supervised
segmentation baseline by a large margin, suggesting the value of bridging
semantic gap in pre-training data.
- Abstract(参考訳): ビジョンランゲージ事前学習は、その目覚ましいゼロショット認識能力と、言語監督から一般化可能な視覚表現を学習する可能性を示した。
一歩前進して、言語によるセマンティックセグメンテーションは、画像とテキストのペアのみからピクセルグループを学習することで、テキスト入力の空間的局所化を可能にする。
それでも、最先端技術は、視覚とテキストのモダリティの間に明確な意味的ギャップに悩まされている:画像に現れる多くの視覚概念が、ペア化されたキャプションに欠けている。
このような意味的ミスアライメントは事前学習で循環し、テキスト表現で捉えた視覚概念が不十分なため、密集した予測ではゼロショット性能が劣る。
このようなセマンティクスのギャップを埋めるため,CLIPを利用するパイプラインであるConcept Curation(CoCu)を提案する。
各画像とテキストのペアに対して,視覚駆動型拡張とテキスト対視覚誘導ランキングとで視覚的に整合するコンセプトアーカイブを構築した。
したがって、関連する概念はクラスタガイドによるサンプリングによって識別され、事前トレーニングされ、視覚とテキストのセマンティクスのギャップを埋めることができる。
8つのセグメンテーションベンチマークの幅広いスイートにわたる実験は、cocuがスーパーブゼロショット転送性能を達成し、言語教師付きセグメンテーションベースラインを大きなマージンで大きく向上させ、事前トレーニングデータにおけるセマンティクスギャップの橋渡しの価値を示唆している。
関連論文リスト
- Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-09T18:00:25Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - CPSeg: Finer-grained Image Semantic Segmentation via Chain-of-Thought
Language Prompting [8.12405696290333]
CPSegは、新しいChain-of-Thoughtプロセスを統合することで、画像セグメンテーションのパフォーマンスを向上させるように設計されたフレームワークである。
我々は、画像、セマンティックマスク、および対応するテキスト情報を含む新しい視覚言語データセット、FloodPromptを提案する。
論文 参考訳(メタデータ) (2023-10-24T13:32:32Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。