Fugu-MT 論文翻訳(概要): DiffuMask-Editor: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability

論文の概要: DiffuMask-Editor: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability

arxiv url: http://arxiv.org/abs/2411.01819v1
Date: Mon, 04 Nov 2024 05:39:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.96032
Title: DiffuMask-Editor: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability
Title（参考訳）: DiffuMask-Editor: セグメンテーション拡散モデルと画像編集の融合によるセグメンテーション能力の向上
Authors: Bo Gao, Fangxu Xing, Daniel Tang,
Abstract要約: 本稿では、アノテーション付きデータセットに対する拡散モデルと画像編集を組み合わせたDiffuMask-Editorを提案する。 Text2Imageモデルを用いて複数のオブジェクトを画像に統合することにより、より現実的なデータセットの作成を容易にする。その結果、DiffuMask-Editorによって生成された合成データにより、セグメント化法は実データよりも優れた性能が得られることが示された。
参考スコア（独自算出の注目度）: 5.767984430681467
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Semantic segmentation models, like mask2former, often demand a substantial amount of manually annotated data, which is time-consuming and inefficient to acquire. Leveraging state-of-the-art text-to-image models like Midjourney and Stable Diffusion has emerged as an effective strategy for automatically generating synthetic data instead of human annotations. However, prior approaches have been constrained to synthesizing single-instance images due to the instability inherent in generating multiple instances with Stable Diffusion. To expand the domains and diversity of synthetic datasets, this paper introduces a novel paradigm named DiffuMask-Editor, which combines the Diffusion Model for Segmentation with Image Editing. By integrating multiple objects into images using Text2Image models, our method facilitates the creation of more realistic datasets that closely resemble open-world settings while simultaneously generating accurate masks. Our approach significantly reduces the laborious effort associated with manual annotation while ensuring precise mask generation. Experimental results demonstrate that synthetic data generated by DiffuMask-Editor enable segmentation methods to achieve superior performance compared to real data. Particularly in zero-shot backgrounds, DiffuMask-Editor achieves new state-of-the-art results on Unseen classes of VOC 2012. The code and models will be publicly available soon.
Abstract（参考訳）: mask2formerのようなセマンティックセグメンテーションモデルは、しばしば大量の手動の注釈付きデータを要求する。 MidjourneyやStable Diffusionのような最先端のテキスト・トゥ・イメージモデルを活用することは、人間のアノテーションの代わりに合成データを自動生成する効果的な戦略として現れました。しかし、従来のアプローチでは、安定拡散を伴う複数インスタンスの生成に固有の不安定性のため、単一インスタンスイメージの合成に制約があった。本稿ではDiffuMask-Editorという新しいパラダイムを紹介し,Diffusion Model for Segmentationと画像編集を組み合わせた。 Text2Imageモデルを用いて複数のオブジェクトを画像に統合することにより、オープンワールド設定によく似たよりリアルなデータセットを作成するとともに、正確なマスクを同時に生成する。本手法は,手作業による手作業による手作業の軽減とマスク生成の精度向上を両立させる。実験により,DiffuMask-Editorが生成した合成データにより,セグメント化法が実データよりも優れた性能を達成できることが実証された。特にゼロショットの背景において、DiffuMask-EditorはVOC 2012のUnseenクラスで新しい最先端の結果を達成する。コードとモデルは近く公開される予定だ。

関連論文リスト

EliGen: Entity-Level Controlled Image Generation with Regional Attention [7.7120747804211405]
我々はエンティティレベルの制御された画像生成のための新しいフレームワークであるEliGenを紹介する。我々はEliGenに、空間的精度と画質の両方において既存の手法を超越して、堅牢で正確な実体レベルの操作を実現するよう訓練する。マルチエンタテインティングタスクにその能力を拡張したインパインティング・フュージョン・パイプラインを提案する。
論文参考訳（メタデータ） (2025-01-02T06:46:13Z)
Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation [70.95380821618711]
Dichotomous Image (DIS) タスクは高度に正確なアノテーションを必要とする。現在の生成モデルとテクニックは、シーンのずれ、ノイズによるエラー、限られたトレーニングサンプルの変動といった問題に苦慮している。多様な正確なデータセットを生成するためのスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2024-12-26T06:37:25Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文参考訳（メタデータ） (2024-02-26T09:21:17Z)
UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文参考訳（メタデータ） (2023-12-04T15:59:27Z)
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation [104.03166324080917]
MosaicFusionは、大語彙のインスタンスセグメンテーションのための、単純で効果的な拡散に基づくデータ拡張手法である。本手法はトレーニングフリーであり,ラベル管理に依存しない。 LVISロングテールおよびオープンボキャブラリベンチマークの実験結果は、MosaicFusionが既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示した。
論文参考訳（メタデータ） (2023-09-22T17:59:42Z)
DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文参考訳（メタデータ） (2023-08-11T14:38:11Z)
MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文参考訳（メタデータ） (2023-08-09T09:35:16Z)
DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文参考訳（メタデータ） (2023-03-21T08:43:15Z)
Foreground-Background Separation through Concept Distillation from Generative Image Foundation Models [6.408114351192012]
本稿では, 簡単なテキスト記述から, 一般的な前景-背景セグメンテーションモデルの生成を可能にする新しい手法を提案する。本研究では,4つの異なる物体(人間,犬,車,鳥)を分割する作業と,医療画像解析におけるユースケースシナリオについて述べる。
論文参考訳（メタデータ） (2022-12-29T13:51:54Z)
DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文参考訳（メタデータ） (2022-10-20T17:16:37Z)
Scaling up instance annotation via label propagation [69.8001043244044]
本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いることにより,これらの類似性を生かした。総アノテーション時間はたった290時間である100万個のオブジェクトセグメンテーションマスクが得られた。
論文参考訳（メタデータ） (2021-10-05T18:29:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。