Fugu-MT 論文翻訳(概要): SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model

論文の概要: SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model

arxiv url: http://arxiv.org/abs/2212.05034v1
Date: Fri, 9 Dec 2022 18:36:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-12 15:28:56.735584
Title: SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model
Title（参考訳）: SmartBrush: 拡散モデルによるテキストと形状ガイドオブジェクトの塗布
Authors: Shaoan Xie, Zhifei Zhang, Zhe Lin, Tobias Hinz and Kun Zhang
Abstract要約: ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
参考スコア（独自算出の注目度）: 27.91089554671927
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generic image inpainting aims to complete a corrupted image by borrowing surrounding information, which barely generates novel content. By contrast, multi-modal inpainting provides more flexible and useful controls on the inpainted content, \eg, a text prompt can be used to describe an object with richer attributes, and a mask can be used to constrain the shape of the inpainted object rather than being only considered as a missing area. We propose a new diffusion-based model named SmartBrush for completing a missing region with an object using both text and shape-guidance. While previous work such as DALLE-2 and Stable Diffusion can do text-guided inapinting they do not support shape guidance and tend to modify background texture surrounding the generated object. Our model incorporates both text and shape guidance with precision control. To preserve the background better, we propose a novel training and sampling strategy by augmenting the diffusion U-net with object-mask prediction. Lastly, we introduce a multi-task training strategy by jointly training inpainting with text-to-image generation to leverage more training data. We conduct extensive experiments showing that our model outperforms all baselines in terms of visual quality, mask controllability, and background preservation.
Abstract（参考訳）: 総称イメージ・インペインティングは、周囲の情報を借りて腐敗した画像を完成することを目的としている。対照的に、マルチモーダルのインペインティングは、インペインテッドコンテンツに対するより柔軟で有用なコントロールを提供する。例えば、テキストプロンプトは、よりリッチな属性を持つオブジェクトを記述するために使用され、マスクは、欠落した領域としてのみ考慮されるのではなく、インペインテッドオブジェクトの形状を制限するために使用できる。テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。 dalle-2やstable diffusionのような以前の作業ではテキストガイドによる非認識が可能だが、形状指導はサポートせず、生成されたオブジェクトを取り巻く背景テクスチャを変更する傾向がある。本モデルでは,テキストと形状のガイダンスと精度制御を併用する。背景をよりよく保存するために,オブジェクトマスク予測による拡散U-netの拡大による新しいトレーニングとサンプリング戦略を提案する。最後に,テキストから画像へのインペインティングを共同でトレーニングし,より多くのトレーニングデータを活用するマルチタスクトレーニング戦略を提案する。我々は、視覚品質、マスク制御性、背景保存性の観点から、我々のモデルが全てのベースラインを上回っていることを示す広範な実験を行う。

関連論文リスト

DiffSTR: Controlled Diffusion Models for Scene Text Removal [5.790630195329777]
Scene Text removed (STR) は、画像中のテキストの不正使用を防止することを目的としている。 STRは、バウンダリアーティファクト、一貫性のないテクスチャと色、正しいシャドウの保存など、いくつかの課題に直面している。 STRを塗装タスクとして扱う制御ネット拡散モデルを提案する。拡散モデルを満たすためのマスク事前学習パイプラインを開発した。
論文参考訳（メタデータ） (2024-10-29T04:20:21Z)
Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文参考訳（メタデータ） (2024-09-12T17:55:37Z)
Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model [81.96954332787655]
テキスト制御のみによるテキスト誘導オブジェクトの追加を容易にするテキスト・ツー・イメージ(T2I)モデルであるDiffreeを紹介する。実験では、Diffreeはバックグラウンドの一貫性、空間、オブジェクトの関連性、品質を維持しながら、高い成功率を持つ新しいオブジェクトを追加します。
論文参考訳（メタデータ） (2024-07-24T03:58:58Z)
Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文参考訳（メタデータ） (2024-06-06T13:02:00Z)
Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文参考訳（メタデータ） (2024-02-26T09:21:17Z)
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2023-08-09T17:45:04Z)
Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。 ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文参考訳（メタデータ） (2023-06-23T19:24:48Z)
SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。