論文の概要: I Dream My Painting: Connecting MLLMs and Diffusion Models via Prompt Generation for Text-Guided Multi-Mask Inpainting
- arxiv url: http://arxiv.org/abs/2411.19050v1
- Date: Thu, 28 Nov 2024 10:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:12.730117
- Title: I Dream My Painting: Connecting MLLMs and Diffusion Models via Prompt Generation for Text-Guided Multi-Mask Inpainting
- Title(参考訳): I Dream My Painting: Connecting MLLMs and Diffusion Models via Prompt Generation for Text-Guided Multi-Mask Inpainting
- Authors: Nicola Fanelli, Gennaro Vessio, Giovanna Castellano,
- Abstract要約: 塗装は、画像の欠落した領域や破損した領域を埋めて、周囲のコンテンツやスタイルとシームレスにブレンドすることに焦点を当てている。
本稿では,異なるプロンプトを用いて複数の領域を同時に塗布するマルチマスク塗装の新たな課題を紹介する。
私たちのパイプラインは、創造的で正確なインペイント結果を提供します。
- 参考スコア(独自算出の注目度): 8.94249680213101
- License:
- Abstract: Inpainting focuses on filling missing or corrupted regions of an image to blend seamlessly with its surrounding content and style. While conditional diffusion models have proven effective for text-guided inpainting, we introduce the novel task of multi-mask inpainting, where multiple regions are simultaneously inpainted using distinct prompts. Furthermore, we design a fine-tuning procedure for multimodal LLMs, such as LLaVA, to generate multi-mask prompts automatically using corrupted images as inputs. These models can generate helpful and detailed prompt suggestions for filling the masked regions. The generated prompts are then fed to Stable Diffusion, which is fine-tuned for the multi-mask inpainting problem using rectified cross-attention, enforcing prompts onto their designated regions for filling. Experiments on digitized paintings from WikiArt and the Densely Captioned Images dataset demonstrate that our pipeline delivers creative and accurate inpainting results. Our code, data, and trained models are available at https://cilabuniba.github.io/i-dream-my-painting.
- Abstract(参考訳): 塗装は、画像の欠落した領域や破損した領域を埋めて、周囲のコンテンツやスタイルとシームレスにブレンドすることに焦点を当てている。
条件付き拡散モデルはテキスト誘導インペイントに有効であることが証明されているが、異なるプロンプトを用いて複数の領域を同時にインペイントするマルチマスクインペイントの新しいタスクを導入する。
さらに,LLaVAなどのマルチモーダルLCMの微調整手順を設計し,劣化した画像を入力として自動的にマルチマスクプロンプトを生成する。
これらのモデルは、マスクされた領域を埋めるための有用な、詳細なプロンプト提案を生成することができる。
生成されたプロンプトは安定拡散(Stable Diffusion)に供給され、これは修正されたクロスアテンションを用いてマルチマスク塗装問題に微調整され、指定された領域にプロンプトを強制して充填する。
WikiArtのデジタル絵画とDensely Captioned Imagesデータセットによる実験は、パイプラインが創造的で正確な塗装結果をもたらすことを示した。
私たちのコード、データ、トレーニングされたモデルは、https://cilabuniba.github.io/i-dream-my-painting.comで利用可能です。
関連論文リスト
- PainterNet: Adaptive Image Inpainting with Actual-Token Attention and Diverse Mask Control [4.984382582612786]
PainterNetは様々な拡散モデルに柔軟に埋め込まれるプラグインである。
本稿では,局所的なプロンプト入力,注意制御点(ACP),実際の注意注意損失(ATAL)を提案する。
大規模な実験分析の結果,PaterNetは画像品質やグローバル/ローカルテキスト整合性といった重要な指標において,既存の最先端モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-02T07:40:47Z) - DiffSTR: Controlled Diffusion Models for Scene Text Removal [5.790630195329777]
Scene Text removed (STR) は、画像中のテキストの不正使用を防止することを目的としている。
STRは、バウンダリアーティファクト、一貫性のないテクスチャと色、正しいシャドウの保存など、いくつかの課題に直面している。
STRを塗装タスクとして扱う制御ネット拡散モデルを提案する。
拡散モデルを満たすためのマスク事前学習パイプラインを開発した。
論文 参考訳(メタデータ) (2024-10-29T04:20:21Z) - PaintSeg: Training-free Segmentation via Painting [50.17936803209125]
PaintSegは、トレーニングなしでオブジェクトをセグメンテーションするための新しい教師なしのメソッドである。
前者は前景をマスキングして背景を埋め、後者は前景の欠落部分を回復しながら背景をマスキングする。
実験の結果、PaintSegは、粗いマスクプロンプト、ボックスプロンプト、ポイントプロンプトセグメンテーションタスクにおいて、既存のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-30T20:43:42Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - RePaint: Inpainting using Denoising Diffusion Probabilistic Models [161.74792336127345]
Free-form Inpaintingは任意のバイナリマスクで指定された領域のイメージに新しいコンテンツを追加するタスクである。
RePaint: A Denoising Probabilistic Model (DDPM) を用いた塗装手法を提案する。
本手法は,標準的なマスクと極端マスクを用いて,顔と汎用画像の塗装の両面で検証する。
論文 参考訳(メタデータ) (2022-01-24T18:40:15Z) - Learning Sparse Masks for Diffusion-based Image Inpainting [10.633099921979674]
拡散ベースの塗布はスパースデータから画像の再構成に強力なツールである。
我々は高効率な適応マスク生成モデルを提供する。
実験により,我々のモデルは最大4桁の加速度で競争品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-06T10:20:59Z) - In&Out : Diverse Image Outpainting via GAN Inversion [89.84841983778672]
image outpaintingは、利用可能なコンテンツを超えて、入力画像の意味的に一貫した拡張を求める。
本研究では、生成的対向ネットワークの反転の観点から問題を定式化する。
私達の発電機はイメージの彼らの共同潜入コードそして個々の位置で調節されるマイクロ パッチをレンダリングします。
論文 参考訳(メタデータ) (2021-04-01T17:59:10Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - VCNet: A Robust Approach to Blind Image Inpainting [70.68227719731243]
ブラインド・インペインティング(Blind inpainting)は、画像内の欠落した領域のマスクを指定せずに、視覚的コンテンツを自動的に完了するタスクである。
本稿では,未知の領域パターンに対してブラインド塗装ニューラルネットワークのトレーニングを堅牢にする,新たなブラインド塗装設定を定義する。
我々の手法はブラインド画像の塗布において有効で堅牢であり、また当社のVCNは幅広い応用を可能にしている。
論文 参考訳(メタデータ) (2020-03-15T12:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。