論文の概要: Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision
- arxiv url: http://arxiv.org/abs/2402.08960v1
- Date: Wed, 14 Feb 2024 06:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:43:59.953122
- Title: Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision
- Title(参考訳): unpaired mask-text supervisorを用いたオープンボキャブラリーセグメンテーション
- Authors: Zhaoqing Wang, Xiaobo Xia, Ziye Chen, Xiao He, Yandong Guo, Mingming
Gong, Tongliang Liu
- Abstract要約: 我々は、独立した画像マスクと画像テキストペアを用いて、マスクとテキストの厳密な対応を解放する。
テキスト記述におけるマス予測と実体の信頼度を利用した弱教師付きオープン語彙セグメンテーションフレームワーク(Uni-OVSeg)を提案する。
テキストのみの弱教師付き手法と比較して、私たちのUni-OVSegはADE20Kデータセットで15.5% mIoUを大幅に改善した。
- 参考スコア(独自算出の注目度): 90.90962457393374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary cutting-edge open-vocabulary segmentation approaches commonly
rely on image-mask-text triplets, yet this restricted annotation is
labour-intensive and encounters scalability hurdles in complex real-world
scenarios. Although some methods are proposed to reduce the annotation cost
with only text supervision, the incompleteness of supervision severely limits
the versatility and performance. In this paper, we liberate the strict
correspondence between masks and texts by using independent image-mask and
image-text pairs, which can be easily collected respectively. With this
unpaired mask-text supervision, we propose a new weakly-supervised
open-vocabulary segmentation framework (Uni-OVSeg) that leverages confident
pairs of mask predictions and entities in text descriptions. Using the
independent image-mask and image-text pairs, we predict a set of binary masks
and associate them with entities by resorting to the CLIP embedding space.
However, the inherent noise in the correspondence between masks and entities
poses a significant challenge when obtaining reliable pairs. In light of this,
we advocate using the large vision-language model (LVLM) to refine text
descriptions and devise a multi-scale ensemble to stablise the matching between
masks and entities. Compared to text-only weakly-supervised methods, our
Uni-OVSeg achieves substantial improvements of 15.5% mIoU on the ADE20K
datasets, and even surpasses fully-supervised methods on the challenging PASCAL
Context-459 dataset.
- Abstract(参考訳): 現代の最先端のオープンボキャブラリセグメンテーションアプローチは一般的にイメージマスクテキスト三重項に依存しているが、この制限されたアノテーションは労働集約的であり、複雑な現実世界のシナリオではスケーラビリティのハードルに直面する。
テキスト管理のみでアノテーションのコストを削減する手法が提案されているが、監督の不完全さは、その汎用性と性能を著しく制限している。
本稿では,独立した画像マスクと画像テキストペアを用いて,マスクとテキストの厳密な対応を解放する。
この非ペア化マスクテキストの監督により,テキスト記述におけるマスク予測とエンティティの自信のあるペアを活用する,オープンボキャブラリセグメンテーションフレームワーク(uni-ovseg)を提案する。
独立した画像マスクと画像テキストペアを用いて、バイナリマスクの集合を予測し、CLIP埋め込み空間を利用してエンティティと関連付ける。
しかしながら、マスクと実体の対応における固有のノイズは、信頼できるペアを得る際に大きな課題となる。
そこで我々は,大規模視覚言語モデル(LVLM)を用いてテキスト記述を洗練し,マスクと実体のマッチングを安定化するためのマルチスケールアンサンブルを考案する。
テキストのみの弱教師付き手法と比較して、私たちのUni-OVSegはADE20Kデータセットで15.5% mIoUを大幅に改善し、挑戦的なPASCAL Context-459データセットの完全な教師付き手法を超えています。
関連論文リスト
- SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language Pretraining [2.9010546489056415]
視覚言語モデル (VLM) は、ペア化されたデータセットを通して、モーダル間理解において大きな進歩を遂げた。
ファッション領域では、データセットは画像とテキストで伝達される情報の間に相違を示すことが多い。
我々は、画像パッチと単語トークンをピンポイントするマスクを生成するシンクロナイズドアテンショナルマスキング(SyncMask)を提案する。
論文 参考訳(メタデータ) (2024-04-01T15:01:38Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。