論文の概要: DiffuMask-Editor: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability
- arxiv url: http://arxiv.org/abs/2411.01819v1
- Date: Mon, 04 Nov 2024 05:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:11.096865
- Title: DiffuMask-Editor: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability
- Title(参考訳): DiffuMask-Editor: セグメンテーション拡散モデルと画像編集の融合によるセグメンテーション能力の向上
- Authors: Bo Gao, Fangxu Xing, Daniel Tang,
- Abstract要約: 本稿では、アノテーション付きデータセットに対する拡散モデルと画像編集を組み合わせたDiffuMask-Editorを提案する。
Text2Imageモデルを用いて複数のオブジェクトを画像に統合することにより、より現実的なデータセットの作成を容易にする。
その結果、DiffuMask-Editorによって生成された合成データにより、セグメント化法は実データよりも優れた性能が得られることが示された。
- 参考スコア(独自算出の注目度): 5.767984430681467
- License:
- Abstract: Semantic segmentation models, like mask2former, often demand a substantial amount of manually annotated data, which is time-consuming and inefficient to acquire. Leveraging state-of-the-art text-to-image models like Midjourney and Stable Diffusion has emerged as an effective strategy for automatically generating synthetic data instead of human annotations. However, prior approaches have been constrained to synthesizing single-instance images due to the instability inherent in generating multiple instances with Stable Diffusion. To expand the domains and diversity of synthetic datasets, this paper introduces a novel paradigm named DiffuMask-Editor, which combines the Diffusion Model for Segmentation with Image Editing. By integrating multiple objects into images using Text2Image models, our method facilitates the creation of more realistic datasets that closely resemble open-world settings while simultaneously generating accurate masks. Our approach significantly reduces the laborious effort associated with manual annotation while ensuring precise mask generation. Experimental results demonstrate that synthetic data generated by DiffuMask-Editor enable segmentation methods to achieve superior performance compared to real data. Particularly in zero-shot backgrounds, DiffuMask-Editor achieves new state-of-the-art results on Unseen classes of VOC 2012. The code and models will be publicly available soon.
- Abstract(参考訳): mask2formerのようなセマンティックセグメンテーションモデルは、しばしば大量の手動の注釈付きデータを要求する。
MidjourneyやStable Diffusionのような最先端のテキスト・トゥ・イメージモデルを活用することは、人間のアノテーションの代わりに合成データを自動生成する効果的な戦略として現れました。
しかし、従来のアプローチでは、安定拡散を伴う複数インスタンスの生成に固有の不安定性のため、単一インスタンスイメージの合成に制約があった。
本稿ではDiffuMask-Editorという新しいパラダイムを紹介し,Diffusion Model for Segmentationと画像編集を組み合わせた。
Text2Imageモデルを用いて複数のオブジェクトを画像に統合することにより、オープンワールド設定によく似たよりリアルなデータセットを作成するとともに、正確なマスクを同時に生成する。
本手法は,手作業による手作業による手作業の軽減とマスク生成の精度向上を両立させる。
実験により,DiffuMask-Editorが生成した合成データにより,セグメント化法が実データよりも優れた性能を達成できることが実証された。
特にゼロショットの背景において、DiffuMask-EditorはVOC 2012のUnseenクラスで新しい最先端の結果を達成する。
コードとモデルは近く公開される予定だ。
関連論文リスト
- Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。
この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。
オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文 参考訳(メタデータ) (2024-02-26T09:21:17Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation [104.03166324080917]
MosaicFusionは、大語彙のインスタンスセグメンテーションのための、単純で効果的な拡散に基づくデータ拡張手法である。
本手法はトレーニングフリーであり,ラベル管理に依存しない。
LVISロングテールおよびオープンボキャブラリベンチマークの実験結果は、MosaicFusionが既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2023-09-22T17:59:42Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - Foreground-Background Separation through Concept Distillation from
Generative Image Foundation Models [6.408114351192012]
本稿では, 簡単なテキスト記述から, 一般的な前景-背景セグメンテーションモデルの生成を可能にする新しい手法を提案する。
本研究では,4つの異なる物体(人間,犬,車,鳥)を分割する作業と,医療画像解析におけるユースケースシナリオについて述べる。
論文 参考訳(メタデータ) (2022-12-29T13:51:54Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Scaling up instance annotation via label propagation [69.8001043244044]
本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。
セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いることにより,これらの類似性を生かした。
総アノテーション時間はたった290時間である100万個のオブジェクトセグメンテーションマスクが得られた。
論文 参考訳(メタデータ) (2021-10-05T18:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。