論文の概要: SegGen: Supercharging Segmentation Models with Text2Mask and Mask2Img Synthesis
- arxiv url: http://arxiv.org/abs/2311.03355v2
- Date: Thu, 4 Jul 2024 18:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:52:08.553269
- Title: SegGen: Supercharging Segmentation Models with Text2Mask and Mask2Img Synthesis
- Title(参考訳): SegGen: Text2Mask と Mask2Img 合成によるスーパーチャージセグメンテーションモデル
- Authors: Hanrong Ye, Jason Kuen, Qing Liu, Zhe Lin, Brian Price, Dan Xu,
- Abstract要約: SegGenは画像セグメンテーションのための高効率なトレーニングデータ生成方法である。
MaskSynはテキスト・ツー・マスク生成モデルとマスク・ツー・マスク生成モデルを用いて新しいマスク・イメージ・ペアを合成する。
ImgSynはマスク・ツー・イメージ生成モデルを用いて既存のマスクに基づいて新しい画像を合成する。
- 参考スコア(独自算出の注目度): 36.76548097887539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose SegGen, a highly-effective training data generation method for image segmentation, which pushes the performance limits of state-of-the-art segmentation models to a significant extent. SegGen designs and integrates two data generation strategies: MaskSyn and ImgSyn. (i) MaskSyn synthesizes new mask-image pairs via our proposed text-to-mask generation model and mask-to-image generation model, greatly improving the diversity in segmentation masks for model supervision; (ii) ImgSyn synthesizes new images based on existing masks using the mask-to-image generation model, strongly improving image diversity for model inputs. On the highly competitive ADE20K and COCO benchmarks, our data generation method markedly improves the performance of state-of-the-art segmentation models in semantic segmentation, panoptic segmentation, and instance segmentation. Notably, in terms of the ADE20K mIoU, Mask2Former R50 is largely boosted from 47.2 to 49.9 (+2.7); Mask2Former Swin-L is also significantly increased from 56.1 to 57.4 (+1.3). These promising results strongly suggest the effectiveness of our SegGen even when abundant human-annotated training data is utilized. Moreover, training with our synthetic data makes the segmentation models more robust towards unseen domains. Project website: https://seggenerator.github.io
- Abstract(参考訳): 画像セグメンテーションのための高効率なトレーニングデータ生成手法であるSegGenを提案し,最先端セグメンテーションモデルの性能限界をある程度押し上げる。
SegGenはMaskSynとImgSynという2つのデータ生成戦略を設計、統合している。
(i)MaskSynは、提案したテキスト・ツー・マスク生成モデルとマスク・ツー・マスク生成モデルを介して新しいマスク・イメージ・ペアを合成し、モデル管理のためのセグメンテーションマスクの多様性を大幅に改善する。
(II)ImgSynはマスク・ツー・イメージ生成モデルを用いて既存のマスクをベースとした新しい画像を合成し,モデル入力における画像の多様性を強く向上させる。
ADE20KとCOCOの高度に競争力のあるベンチマークでは,データ生成手法により,セマンティックセグメンテーション,パン光学セグメンテーション,インスタンスセグメンテーションにおける最先端セグメンテーションモデルの性能が著しく向上する。
特にADE20K mIoUでは、Mask2Former R50は47.2から49.9(+2.7)に大きく向上し、Mask2Former Swin-Lも56.1から57.4(+1.3)に大幅に増加した。
これらの有望な結果は、豊富な人手によるトレーニングデータが利用される場合でも、SegGenの有効性を強く示唆する。
さらに、我々の合成データを用いたトレーニングにより、セグメント化モデルは、目に見えない領域に対してより堅牢になる。
プロジェクトウェブサイト:https://seggenerator.github.io
関連論文リスト
- DiffuMask-Editor: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability [5.767984430681467]
本稿では、アノテーション付きデータセットに対する拡散モデルと画像編集を組み合わせたDiffuMask-Editorを提案する。
Text2Imageモデルを用いて複数のオブジェクトを画像に統合することにより、より現実的なデータセットの作成を容易にする。
その結果、DiffuMask-Editorによって生成された合成データにより、セグメント化法は実データよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-11-04T05:39:01Z) - SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete
Diffusion Process [102.18226145874007]
そこで我々は,異なるセグメンテーションモデルによって生成されるオブジェクトマスクの品質を高めるために,SegRefinerと呼ばれるモデルに依存しないソリューションを提案する。
SegRefinerは粗いマスクを入力として取り、離散拡散プロセスを用いてそれらを洗練する。
さまざまな種類の粗いマスクにわたるセグメンテーションメトリックとバウンダリメトリックの両方を一貫して改善する。
論文 参考訳(メタデータ) (2023-12-19T18:53:47Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - FreeMask: Synthetic Images with Dense Annotations Make Stronger
Segmentation Models [62.009002395326384]
FreeMaskは、生成モデルからの合成画像を利用して、データ収集とアノテーション手順の負担を軽減する。
まず、現実的なデータセットによって提供されるセマンティックマスクに条件付けされた豊富な訓練画像を合成する。
本研究では,実画像との協調訓練や,実画像の事前学習による合成画像の役割について検討する。
論文 参考訳(メタデータ) (2023-10-23T17:57:27Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - One-Shot Synthesis of Images and Segmentation Masks [28.119303696418882]
画像合成とGAN(Generative Adversarial Network)とのセグメンテーションマスクの併用により,画像データをピクセル単位のアノテーションで収集する作業の削減が期待されている。
高忠実な画像マスク合成を学習するために、既存のGANアプローチは、大量の画像データを必要とする事前学習フェーズを必要とする。
我々は,1ショット方式で生成した画像に正確に整合したセグメンテーションマスクの合成を可能にするOSMISモデルを提案する。
論文 参考訳(メタデータ) (2022-09-15T18:00:55Z) - Mask DINO: Towards A Unified Transformer-based Framework for Object
Detection and Segmentation [15.826822450977271]
Mask DINOは統合されたオブジェクト検出とセグメンテーションフレームワークである。
Mask DINOはシンプルで、効率的で、スケーラブルで、共同で大規模な検出とセグメンテーションデータセットの恩恵を受けています。
論文 参考訳(メタデータ) (2022-06-06T17:57:25Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。