論文の概要: Free-Mask: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability
- arxiv url: http://arxiv.org/abs/2411.01819v2
- Date: Mon, 02 Dec 2024 14:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:56:17.875054
- Title: Free-Mask: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability
- Title(参考訳): Free-Mask: セグメンテーション拡散モデルと画像編集の融合によるセグメンテーション能力の向上
- Authors: Bo Gao, Fangxu Xing, Daniel Tang,
- Abstract要約: セグメンテーションのための拡散モデルと高度な画像編集機能を組み合わせたフレームワーク textbfFree-Mask を提案する。
その結果、textbfFree-Mask は VOC 2012 ベンチマークで未確認のクラスに対して、新しい最先端の結果を達成していることがわかった。
- 参考スコア(独自算出の注目度): 5.767984430681467
- License:
- Abstract: Current semantic segmentation models typically require a substantial amount of manually annotated data, a process that is both time-consuming and resource-intensive. Alternatively, leveraging advanced text-to-image models such as Midjourney and Stable Diffusion has emerged as an efficient strategy, enabling the automatic generation of synthetic data in place of manual annotations. However, previous methods have been limited to generating single-instance images, as the generation of multiple instances with Stable Diffusion has proven unstable. To address this limitation and expand the scope and diversity of synthetic datasets, we propose a framework \textbf{Free-Mask} that combines a Diffusion Model for segmentation with advanced image editing capabilities, allowing for the integration of multiple objects into images via text-to-image models. Our method facilitates the creation of highly realistic datasets that closely emulate open-world environments while generating accurate segmentation masks. It reduces the labor associated with manual annotation and also ensures precise mask generation. Experimental results demonstrate that synthetic data generated by \textbf{Free-Mask} enables segmentation models to outperform those trained on real data, especially in zero-shot settings. Notably, \textbf{Free-Mask} achieves new state-of-the-art results on previously unseen classes in the VOC 2012 benchmark.
- Abstract(参考訳): 現在のセマンティックセグメンテーションモデルは、通常、かなりの量の手動のアノテートデータを必要とします。
あるいは、MidjourneyやStable Diffusionといった高度なテキスト・ツー・イメージモデルを活用することが効率的な戦略として現れ、手動アノテーションの代わりに合成データの自動生成を可能にしている。
しかし、従来の方法は、安定拡散を伴う複数のインスタンスの生成が不安定であることが証明されたため、単一インスタンス画像の生成に限られていた。
この制限に対処し、合成データセットの範囲と多様性を拡張するために、セグメント化のための拡散モデルと高度な画像編集機能を組み合わせたフレームワークである「textbf{Free-Mask}」を提案する。
提案手法は,オープンワールド環境を密にエミュレートし,正確なセグメンテーションマスクを生成する,高度に現実的なデータセットの作成を容易にする。
手動のアノテーションに関連する労力を削減し、正確なマスク生成を保証する。
実験結果から,textbf{Free-Mask} が生成した合成データは,実データ,特にゼロショット設定において,セグメンテーションモデルよりも優れていることが示された。
特に、 \textbf{Free-Mask} は VOC 2012 ベンチマークで未確認のクラスに対して、新しい最先端の結果を達成している。
関連論文リスト
- Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。
この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。
オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文 参考訳(メタデータ) (2024-02-26T09:21:17Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation [104.03166324080917]
MosaicFusionは、大語彙のインスタンスセグメンテーションのための、単純で効果的な拡散に基づくデータ拡張手法である。
本手法はトレーニングフリーであり,ラベル管理に依存しない。
LVISロングテールおよびオープンボキャブラリベンチマークの実験結果は、MosaicFusionが既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2023-09-22T17:59:42Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - Foreground-Background Separation through Concept Distillation from
Generative Image Foundation Models [6.408114351192012]
本稿では, 簡単なテキスト記述から, 一般的な前景-背景セグメンテーションモデルの生成を可能にする新しい手法を提案する。
本研究では,4つの異なる物体(人間,犬,車,鳥)を分割する作業と,医療画像解析におけるユースケースシナリオについて述べる。
論文 参考訳(メタデータ) (2022-12-29T13:51:54Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Scaling up instance annotation via label propagation [69.8001043244044]
本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。
セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いることにより,これらの類似性を生かした。
総アノテーション時間はたった290時間である100万個のオブジェクトセグメンテーションマスクが得られた。
論文 参考訳(メタデータ) (2021-10-05T18:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。