論文の概要: SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model
- arxiv url: http://arxiv.org/abs/2212.05034v1
- Date: Fri, 9 Dec 2022 18:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 15:28:56.735584
- Title: SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model
- Title(参考訳): SmartBrush: 拡散モデルによるテキストと形状ガイドオブジェクトの塗布
- Authors: Shaoan Xie, Zhifei Zhang, Zhe Lin, Tobias Hinz and Kun Zhang
- Abstract要約: ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。
対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
- 参考スコア(独自算出の注目度): 27.91089554671927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generic image inpainting aims to complete a corrupted image by borrowing
surrounding information, which barely generates novel content. By contrast,
multi-modal inpainting provides more flexible and useful controls on the
inpainted content, \eg, a text prompt can be used to describe an object with
richer attributes, and a mask can be used to constrain the shape of the
inpainted object rather than being only considered as a missing area. We
propose a new diffusion-based model named SmartBrush for completing a missing
region with an object using both text and shape-guidance. While previous work
such as DALLE-2 and Stable Diffusion can do text-guided inapinting they do not
support shape guidance and tend to modify background texture surrounding the
generated object. Our model incorporates both text and shape guidance with
precision control. To preserve the background better, we propose a novel
training and sampling strategy by augmenting the diffusion U-net with
object-mask prediction. Lastly, we introduce a multi-task training strategy by
jointly training inpainting with text-to-image generation to leverage more
training data. We conduct extensive experiments showing that our model
outperforms all baselines in terms of visual quality, mask controllability, and
background preservation.
- Abstract(参考訳): 総称イメージ・インペインティングは、周囲の情報を借りて腐敗した画像を完成することを目的としている。
対照的に、マルチモーダルのインペインティングは、インペインテッドコンテンツに対するより柔軟で有用なコントロールを提供する。例えば、テキストプロンプトは、よりリッチな属性を持つオブジェクトを記述するために使用され、マスクは、欠落した領域としてのみ考慮されるのではなく、インペインテッドオブジェクトの形状を制限するために使用できる。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
dalle-2やstable diffusionのような以前の作業ではテキストガイドによる非認識が可能だが、形状指導はサポートせず、生成されたオブジェクトを取り巻く背景テクスチャを変更する傾向がある。
本モデルでは,テキストと形状のガイダンスと精度制御を併用する。
背景をよりよく保存するために,オブジェクトマスク予測による拡散U-netの拡大による新しいトレーニングとサンプリング戦略を提案する。
最後に,テキストから画像へのインペインティングを共同でトレーニングし,より多くのトレーニングデータを活用するマルチタスクトレーニング戦略を提案する。
我々は、視覚品質、マスク制御性、背景保存性の観点から、我々のモデルが全てのベースラインを上回っていることを示す広範な実験を行う。
関連論文リスト
- Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model [81.96954332787655]
テキスト制御のみによるテキスト誘導オブジェクトの追加を容易にするテキスト・ツー・イメージ(T2I)モデルであるDiffreeを紹介する。
実験では、Diffreeはバックグラウンドの一貫性、空間、オブジェクトの関連性、品質を維持しながら、高い成功率を持つ新しいオブジェクトを追加します。
論文 参考訳(メタデータ) (2024-07-24T03:58:58Z) - Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。
本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文 参考訳(メタデータ) (2024-06-06T13:02:00Z) - Paint by Inpaint: Learning to Add Image Objects by Removing Them First [8.399234415641319]
我々は、画像にオブジェクトを効果的に付加して、塗布過程を逆転させる拡散モデルを訓練する。
削除対象の詳細な記述と,これらの記述を多種多様な自然言語命令に変換するための大規模言語モデルを提供する。
論文 参考訳(メタデータ) (2024-04-28T15:07:53Z) - Salient Object-Aware Background Generation using Text-Guided Diffusion Models [4.747826159446815]
本稿では, 安定拡散と制御ネットアーキテクチャを用いて, 健全なオブジェクト出力処理にインペイント拡散モデルを適用するモデルを提案する。
提案手法は,複数のデータセットにまたがる標準的な視覚的メトリクスの劣化を伴わずに,オブジェクトの展開を平均3.6倍に削減する。
論文 参考訳(メタデータ) (2024-04-15T22:13:35Z) - Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。
この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。
オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文 参考訳(メタデータ) (2024-02-26T09:21:17Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。