論文の概要: Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision
- arxiv url: http://arxiv.org/abs/2301.09121v1
- Date: Sun, 22 Jan 2023 13:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:57:39.649954
- Title: Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision
- Title(参考訳): 自然言語指導による語彙意味セグメンテーションモデルの学習
- Authors: Jilan Xu, Junlin Hou, Yuejie Zhang, Rui Feng, Yi Wang, Yu Qiao, Weidi
Xie
- Abstract要約: オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
- 参考スコア(独自算出の注目度): 49.905448429974804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the problem of open-vocabulary semantic
segmentation (OVS), which aims to segment objects of arbitrary classes instead
of pre-defined, closed-set categories. The main contributions are as follows:
First, we propose a transformer-based model for OVS, termed as OVSegmentor,
which only exploits web-crawled image-text pairs for pre-training without using
any mask annotations. OVSegmentor assembles the image pixels into a set of
learnable group tokens via a slot-attention based binding module, and aligns
the group tokens to the corresponding caption embedding. Second, we propose two
proxy tasks for training, namely masked entity completion and cross-image mask
consistency. The former aims to infer all masked entities in the caption given
the group tokens, that enables the model to learn fine-grained alignment
between visual groups and text entities. The latter enforces consistent mask
predictions between images that contain shared entities, which encourages the
model to learn visual invariance. Third, we construct CC4M dataset for
pre-training by filtering CC12M with frequently appeared entities, which
significantly improves training efficiency. Fourth, we perform zero-shot
transfer on three benchmark datasets, PASCAL VOC 2012, PASCAL Context, and COCO
Object. Our model achieves superior segmentation results over the
state-of-the-art method by using only 3\% data (4M vs 134M) for pre-training.
Code and pre-trained models will be released for future research.
- Abstract(参考訳): 本稿では,既定の閉集合圏ではなく任意のクラスのオブジェクトをセグメンテーションすることを目的としたオープンボカブラリー意味セグメンテーション(ovs)の問題を考える。
まず、ovsegmentorと呼ばれるovs用のトランスフォーマーモデルを提案する。これは、マスクアノテーションを使わずに、webクローリングされた画像テキストペアを事前トレーニングにのみ活用する。
OVSegmentorは、画像ピクセルをスロットアテンションベースのバインディングモジュールを介して学習可能なグループトークンのセットに組み立て、対応するキャプション埋め込みにグループトークンをアライメントする。
第2に、マスク付きエンティティ補完とクロスイメージマスク整合性という、トレーニングのための2つのプロキシタスクを提案する。
前者は、グループトークンが与えられたキャプション内のすべてのマスクされたエンティティを推論することを目的としており、モデルが視覚グループとテキストエンティティの細かなアライメントを学ぶことができる。
後者は、共有エンティティを含む画像間の一貫したマスク予測を強制し、モデルが視覚的不変性を学ぶことを奨励する。
第3に,頻繁に出現するエンティティをcc12mにフィルタリングすることにより,事前トレーニングのためのcc4mデータセットを構築し,トレーニング効率を大幅に向上させる。
第4に,3つのベンチマークデータセット,PASCAL VOC 2012 PASCAL Context,COCO Object上でゼロショット転送を行う。
本モデルでは,事前学習に3\%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
コードと事前訓練されたモデルは、将来の研究のためにリリースされる。
関連論文リスト
- Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals [15.258631373740686]
教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルセマンティックカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。
そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。
これにより、予測最大化アルゴリズムであるPriMaPs-EMを用いて、クラスプロトタイプをPriMaPsに適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
論文 参考訳(メタデータ) (2024-04-25T17:58:09Z) - Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Open-Vocabulary Image Segmentation [36.5086895686526]
任意のテキストで示される意味のある領域にイメージを整理するオープン語彙画像分割モデルを設計する。
これらのモデルは、視覚的セマンティックアライメントを学ぶ前に、ピクセルをグループにまとめる視覚的グループ化の重要なステップを欠いている、と我々は主張する。
私たちの仕事は、ホールドアウトセグメンテーションデータセットでゼロショット転送を実行する最初のものです。
論文 参考訳(メタデータ) (2021-12-22T18:57:54Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。