論文の概要: Outline-Guided Object Inpainting with Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.16421v1
- Date: Mon, 26 Feb 2024 09:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 13:53:43.709996
- Title: Outline-Guided Object Inpainting with Diffusion Models
- Title(参考訳): 拡散モデルによるアウトラインガイド物体の塗装
- Authors: Markus Pobitzer, Filip Janicki, Mattia Rigotti, Cristiano Malossi
- Abstract要約: インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。
この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。
オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
- 参考スコア(独自算出の注目度): 11.391452115311798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instance segmentation datasets play a crucial role in training accurate and
robust computer vision models. However, obtaining accurate mask annotations to
produce high-quality segmentation datasets is a costly and labor-intensive
process. In this work, we show how this issue can be mitigated by starting with
small annotated instance segmentation datasets and augmenting them to
effectively obtain a sizeable annotated dataset. We achieve that by creating
variations of the available annotated object instances in a way that preserves
the provided mask annotations, thereby resulting in new image-mask pairs to be
added to the set of annotated images. Specifically, we generate new images
using a diffusion-based inpainting model to fill out the masked area with a
desired object class by guiding the diffusion through the object outline. We
show that the object outline provides a simple, but also reliable and
convenient training-free guidance signal for the underlying inpainting model
that is often sufficient to fill out the mask with an object of the correct
class without further text guidance and preserve the correspondence between
generated images and the mask annotations with high precision. Our experimental
results reveal that our method successfully generates realistic variations of
object instances, preserving their shape characteristics while introducing
diversity within the augmented area. We also show that the proposed method can
naturally be combined with text guidance and other image augmentation
techniques.
- Abstract(参考訳): インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。
しかし、高品質なセグメンテーションデータセットを作成するための正確なマスクアノテーションを得ることはコストと労力のかかるプロセスである。
そこで本研究では,小規模のアノテートインスタンスセグメンテーションデータセットを起動し,それらを拡張することにより,この課題を軽減し,大規模にアノテートされたデータセットを効果的に得る方法を示す。
得られたマスクアノテーションを保存する方法で利用可能なアノテーション付きオブジェクトインスタンスのバリエーションを作成することで、アノテーション付きイメージのセットに新しいイメージマスクペアを追加することができる。
具体的には,拡散モデルを用いて新しい画像を生成し,対象の輪郭に拡散を誘導することにより,目的のオブジェクトクラスでマスク領域を埋める。
提案手法は,テキストによる指導を必要とせず,適切なクラスのオブジェクトでマスクを記入するのに十分であり,生成した画像とマスクアノテーションとの対応を高精度に保ちながら,簡易かつ信頼性の高いトレーニングフリーな誘導信号を提供する。
実験結果から,本手法は,拡張領域内での多様性を導入しながら,形状特性を保ちながら,現実的なオブジェクトインスタンスの変動を生成することに成功した。
また,提案手法は自然にテキスト指導や他の画像拡張技術と組み合わせることができることを示した。
関連論文リスト
- DiffuMask-Editor: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability [5.767984430681467]
本稿では、アノテーション付きデータセットに対する拡散モデルと画像編集を組み合わせたDiffuMask-Editorを提案する。
Text2Imageモデルを用いて複数のオブジェクトを画像に統合することにより、より現実的なデータセットの作成を容易にする。
その結果、DiffuMask-Editorによって生成された合成データにより、セグメント化法は実データよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-11-04T05:39:01Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Paint by Inpaint: Learning to Add Image Objects by Removing Them First [8.399234415641319]
我々は、画像にオブジェクトを効果的に付加して、塗布過程を逆転させる拡散モデルを訓練する。
削除対象の詳細な記述と,これらの記述を多種多様な自然言語命令に変換するための大規模言語モデルを提供する。
論文 参考訳(メタデータ) (2024-04-28T15:07:53Z) - Microscopy Image Segmentation via Point and Shape Regularized Data
Synthesis [9.47802391546853]
合成学習データを用いた顕微鏡画像セグメンテーションのための統一パイプラインを構築した。
本フレームワークは,濃密なラベルを持つ高精度な顕微鏡画像で訓練されたモデルと同等の結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T22:00:53Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Foreground-Background Separation through Concept Distillation from
Generative Image Foundation Models [6.408114351192012]
本稿では, 簡単なテキスト記述から, 一般的な前景-背景セグメンテーションモデルの生成を可能にする新しい手法を提案する。
本研究では,4つの異なる物体(人間,犬,車,鳥)を分割する作業と,医療画像解析におけるユースケースシナリオについて述べる。
論文 参考訳(メタデータ) (2022-12-29T13:51:54Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - LayoutBERT: Masked Language Layout Model for Object Insertion [3.4806267677524896]
本稿では,オブジェクト挿入タスクのためのレイアウトBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
各種ドメインからのデータセットの質的および定量的評価を行う。
論文 参考訳(メタデータ) (2022-04-30T21:35:38Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。