論文の概要: EM-Paste: EM-guided Cut-Paste with DALL-E Augmentation for Image-level
Weakly Supervised Instance Segmentation
- arxiv url: http://arxiv.org/abs/2212.07629v1
- Date: Thu, 15 Dec 2022 06:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 17:00:54.519293
- Title: EM-Paste: EM-guided Cut-Paste with DALL-E Augmentation for Image-level
Weakly Supervised Instance Segmentation
- Title(参考訳): EM-Paste:DALL-E強化EMガイドカットペースト
- Authors: Yunhao Ge, Jiashu Xu, Brian Nlong Zhao, Laurent Itti, Vibhav Vineet
- Abstract要約: 本稿では、弱教師付きインスタンスセグメンテーションのための予測最大化(EM)ガイド付きカット・ペースト合成データセット拡張手法を提案する。
提案手法は,画像レベルの弱いラベル情報のみを用いて,PASCAL VOC 2012とMS COCOデータセットの両方に対して,最先端の弱教師付きインスタンスセグメンテーション結果を実現する。
- 参考スコア(独自算出の注目度): 18.276823176045525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose EM-PASTE: an Expectation Maximization(EM) guided Cut-Paste
compositional dataset augmentation approach for weakly-supervised instance
segmentation using only image-level supervision. The proposed method consists
of three main components. The first component generates high-quality foreground
object masks. To this end, an EM-like approach is proposed that iteratively
refines an initial set of object mask proposals generated by a generic region
proposal method. Next, in the second component, high-quality context-aware
background images are generated using a text-to-image compositional synthesis
method like DALL-E. Finally, the third component creates a large-scale
pseudo-labeled instance segmentation training dataset by compositing the
foreground object masks onto the original and generated background images. The
proposed approach achieves state-of-the-art weakly-supervised instance
segmentation results on both the PASCAL VOC 2012 and MS COCO datasets by using
only image-level, weak label information. In particular, it outperforms the
best baseline by +7.4 and +2.8 mAP0.50 on PASCAL and COCO, respectively.
Further, the method provides a new solution to the long-tail weakly-supervised
instance segmentation problem (when many classes may only have few training
samples), by selectively augmenting under-represented classes.
- Abstract(参考訳): 画像レベルの監視のみを用いた弱教師付きインスタンスセグメンテーションのための予測最大化(EM)ガイド付きカット・ペースト合成データセット拡張アプローチを提案する。
提案手法は3つの主成分からなる。
第1成分は、高品質な前景オブジェクトマスクを生成する。
この目的のために,ジェネリック領域提案法により生成されたオブジェクトマスク提案の初期セットを反復的に洗練するEMライクな手法を提案する。
次に、DALL-Eのようなテキスト対画像合成手法を用いて、高品質なコンテキスト認識背景画像を生成する。
最後に、第3のコンポーネントは、前景オブジェクトマスクを原画像および生成された背景画像に合成して、大規模擬似ラベルインスタンスセグメンテーショントレーニングデータセットを作成する。
提案手法は,画像レベルの弱いラベル情報のみを用いて,PASCAL VOC 2012とMS COCOデータセットの両方に対して,最先端の弱教師付きインスタンスセグメンテーション結果を実現する。
特に、PASCALとCOCOでは+7.4と+2.8mAP0.50で最高のベースラインを上回っている。
さらに、多くのクラスがトレーニングサンプルが少ない場合に)ロングテールの弱い教師付きインスタンスセグメンテーション問題に対する新しい解決策を提供し、未表示のクラスを選択的に拡張する。
関連論文リスト
- Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Synthetic Instance Segmentation from Semantic Image Segmentation Masks [15.477053085267404]
我々は、Synthetic Instance(SISeg)と呼ばれる新しいパラダイムを提案する。
SISegインスタンスセグメンテーションの結果は、既存のセマンティックセグメンテーションモデルによって生成されたイメージマスクを活用する。
言い換えれば、提案モデルは余分な人力や高い計算コストを必要としない。
論文 参考訳(メタデータ) (2023-08-02T05:13:02Z) - Multi-Granularity Denoising and Bidirectional Alignment for Weakly
Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。
MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文 参考訳(メタデータ) (2023-05-09T03:33:43Z) - Iterative Few-shot Semantic Segmentation from Image Label Text [36.53926941601841]
ほとんどショットのセマンティックセマンティックセマンティクスは、いくつかのサポートイメージのガイダンスで、目に見えないクラスオブジェクトのセマンティクスを学ぶことを目的としている。
本稿では、強力な視覚言語モデルCLIPの助けを借りて、粗いマスクを生成するための一般的なフレームワークを提案する。
本手法は,野生および珍しいクラスの画像に対して,優れた一般化能力を有する。
論文 参考訳(メタデータ) (2023-03-10T01:48:14Z) - Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文 参考訳(メタデータ) (2023-01-22T13:10:05Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - SOLO: A Simple Framework for Instance Segmentation [84.00519148562606]
インスタンスカテゴリ"は、インスタンスの場所に応じて、インスタンス内の各ピクセルにカテゴリを割り当てる。
SOLO"は、強力なパフォーマンスを備えたインスタンスセグメンテーションのための、シンプルで、直接的で、高速なフレームワークです。
提案手法は, 高速化と精度の両面から, 実例分割の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-30T09:56:54Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。