論文の概要: Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision
- arxiv url: http://arxiv.org/abs/2301.09121v1
- Date: Sun, 22 Jan 2023 13:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:57:39.649954
- Title: Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision
- Title(参考訳): 自然言語指導による語彙意味セグメンテーションモデルの学習
- Authors: Jilan Xu, Junlin Hou, Yuejie Zhang, Rui Feng, Yi Wang, Yu Qiao, Weidi
Xie
- Abstract要約: オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
- 参考スコア(独自算出の注目度): 49.905448429974804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the problem of open-vocabulary semantic
segmentation (OVS), which aims to segment objects of arbitrary classes instead
of pre-defined, closed-set categories. The main contributions are as follows:
First, we propose a transformer-based model for OVS, termed as OVSegmentor,
which only exploits web-crawled image-text pairs for pre-training without using
any mask annotations. OVSegmentor assembles the image pixels into a set of
learnable group tokens via a slot-attention based binding module, and aligns
the group tokens to the corresponding caption embedding. Second, we propose two
proxy tasks for training, namely masked entity completion and cross-image mask
consistency. The former aims to infer all masked entities in the caption given
the group tokens, that enables the model to learn fine-grained alignment
between visual groups and text entities. The latter enforces consistent mask
predictions between images that contain shared entities, which encourages the
model to learn visual invariance. Third, we construct CC4M dataset for
pre-training by filtering CC12M with frequently appeared entities, which
significantly improves training efficiency. Fourth, we perform zero-shot
transfer on three benchmark datasets, PASCAL VOC 2012, PASCAL Context, and COCO
Object. Our model achieves superior segmentation results over the
state-of-the-art method by using only 3\% data (4M vs 134M) for pre-training.
Code and pre-trained models will be released for future research.
- Abstract(参考訳): 本稿では,既定の閉集合圏ではなく任意のクラスのオブジェクトをセグメンテーションすることを目的としたオープンボカブラリー意味セグメンテーション(ovs)の問題を考える。
まず、ovsegmentorと呼ばれるovs用のトランスフォーマーモデルを提案する。これは、マスクアノテーションを使わずに、webクローリングされた画像テキストペアを事前トレーニングにのみ活用する。
OVSegmentorは、画像ピクセルをスロットアテンションベースのバインディングモジュールを介して学習可能なグループトークンのセットに組み立て、対応するキャプション埋め込みにグループトークンをアライメントする。
第2に、マスク付きエンティティ補完とクロスイメージマスク整合性という、トレーニングのための2つのプロキシタスクを提案する。
前者は、グループトークンが与えられたキャプション内のすべてのマスクされたエンティティを推論することを目的としており、モデルが視覚グループとテキストエンティティの細かなアライメントを学ぶことができる。
後者は、共有エンティティを含む画像間の一貫したマスク予測を強制し、モデルが視覚的不変性を学ぶことを奨励する。
第3に,頻繁に出現するエンティティをcc12mにフィルタリングすることにより,事前トレーニングのためのcc4mデータセットを構築し,トレーニング効率を大幅に向上させる。
第4に,3つのベンチマークデータセット,PASCAL VOC 2012 PASCAL Context,COCO Object上でゼロショット転送を行う。
本モデルでは,事前学習に3\%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
コードと事前訓練されたモデルは、将来の研究のためにリリースされる。
関連論文リスト
- SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - Robust One-shot Segmentation of Brain Tissues via Image-aligned Style
Transformation [13.430851964063534]
本稿では,脳組織のワンショットセグメンテーションのための2モデル反復学習を強化するために,新しい画像整列型変換を提案する。
2つの公開データセットによる実験結果から,1)完全教師付き手法と比較して,提案手法の競合セグメンテーション性能が向上し,2)Diceの平均値が4.67%向上した他の最先端技術よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-26T09:14:01Z) - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [45.81698881151867]
Open-vocabulary semantic segmentationは、トレーニング中に見られなかったかもしれないテキスト記述に従って、イメージをセマンティック領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、次にCLIPなどの事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
マスクされた画像領域とその対応するテキスト記述の集合上でCLIPを微調整する。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の状態より+8.5%高い。
論文 参考訳(メタデータ) (2022-10-09T02:57:32Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Open-Vocabulary Image Segmentation [36.5086895686526]
任意のテキストで示される意味のある領域にイメージを整理するオープン語彙画像分割モデルを設計する。
これらのモデルは、視覚的セマンティックアライメントを学ぶ前に、ピクセルをグループにまとめる視覚的グループ化の重要なステップを欠いている、と我々は主張する。
私たちの仕事は、ホールドアウトセグメンテーションデータセットでゼロショット転送を実行する最初のものです。
論文 参考訳(メタデータ) (2021-12-22T18:57:54Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。