論文の概要: Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision
- arxiv url: http://arxiv.org/abs/2402.08960v2
- Date: Tue, 11 Jun 2024 17:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 22:32:43.531770
- Title: Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision
- Title(参考訳): マスク・テキスト・スーパービジョンによるオープンボキャブラリセグメンテーション
- Authors: Zhaoqing Wang, Xiaobo Xia, Ziye Chen, Xiao He, Yandong Guo, Mingming Gong, Tongliang Liu,
- Abstract要約: Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
- 参考スコア(独自算出の注目度): 87.15580604023555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art open-vocabulary segmentation methods typically rely on image-mask-text triplet annotations for supervision. However, acquiring such detailed annotations is labour-intensive and poses scalability challenges in complex real-world scenarios. While existing weakly-supervised approaches leverage image-text pairs to reduce the expansive annotation cost, the lack of mask supervision makes it difficult for the model to locate multiple instances and accurately group pixels with similar semantics, significantly hampering versatility and performance. In this paper, we introduce Unpair-Seg, a novel weakly-supervised open-vocabulary segmentation framework that learns from unpaired image-mask and image-text pairs, which can be independently and efficiently collected. Unpair-Seg initially predicts a set of binary masks and generates pseudo labels by identifying confident pairs of masks and text entities. We then train a feature adapter to align region embeddings with text embeddings based on these pseudo labels, achieving open-vocabulary segmentation. However, the inherent noise in the mask-entity correspondence poses a challenge to obtaining reliable pairs. To address this, we employ a vision-language large model to re-caption the input images and extract precise entities, and we design a multi-scale matching strategy to reduce noisy mask-entity pairs. Our Unpair-Seg framework demonstrates impressive performance, achieving 14.6\% and 19.5\% mIoU on the ADE-847 and PASCAL Context-459 datasets, significantly narrowing the gap between fully-supervised and weakly-supervised methods.
- Abstract(参考訳): 現在の最先端のオープンボキャブラリセグメンテーション手法は、一般的に監督のためにイメージマスク文のトリプルトアノテーションに依存している。
しかし、そのような詳細なアノテーションを取得することは労働集約的であり、複雑な現実世界のシナリオにおいてスケーラビリティの課題を提起する。
既存の弱い教師付きアプローチでは、画像とテキストのペアを利用してアノテーションのコストを削減しているが、マスクの監督の欠如により、モデルが複数のインスタンスを見つけ出し、類似のセマンティクスを持つピクセルを正確にグループ化することが難しくなり、汎用性とパフォーマンスが著しく損なわれる。
本稿では、未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集できる、弱教師付きオープン語彙セグメンテーションフレームワークUnpair-Segを紹介する。
Unpair-Segは最初、一連のバイナリマスクを予測し、自信あるマスクとテキストエンティティのペアを特定して擬似ラベルを生成する。
次に、これらの擬似ラベルに基づいて、領域埋め込みとテキスト埋め込みを整列させる機能アダプタを訓練し、オープン語彙セグメンテーションを実現する。
しかし、マスク・エンティリティ対応の固有のノイズは、信頼できるペアを得るのに困難をもたらす。
そこで我々は、視覚言語による大規模モデルを用いて、入力画像を再キャプチャし、精密な実体を抽出し、ノイズの多いマスマスマスのペアを減らすためのマルチスケールマッチング戦略を設計する。
我々のUnpair-Segフレームワークは、ADE-847とPASCAL Context-459データセットで14.6\%と19.5\% mIoUを達成し、完全に教師されたメソッドと弱い教師付きメソッドのギャップを著しく狭めている。
関連論文リスト
- SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language Pretraining [2.9010546489056415]
視覚言語モデル (VLM) は、ペア化されたデータセットを通して、モーダル間理解において大きな進歩を遂げた。
ファッション領域では、データセットは画像とテキストで伝達される情報の間に相違を示すことが多い。
我々は、画像パッチと単語トークンをピンポイントするマスクを生成するシンクロナイズドアテンショナルマスキング(SyncMask)を提案する。
論文 参考訳(メタデータ) (2024-04-01T15:01:38Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。