論文の概要: Paint by Inpaint: Learning to Add Image Objects by Removing Them First
- arxiv url: http://arxiv.org/abs/2404.18212v1
- Date: Sun, 28 Apr 2024 15:07:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 15:35:41.202949
- Title: Paint by Inpaint: Learning to Add Image Objects by Removing Them First
- Title(参考訳): Paint by Inpaint: イメージオブジェクトを最初に削除して追加する学習
- Authors: Navve Wasserman, Noam Rotstein, Roy Ganz, Ron Kimmel,
- Abstract要約: 我々は、画像にオブジェクトを効果的に付加して、塗布過程を逆転させる拡散モデルを訓練する。
削除対象の詳細な記述と,これらの記述を多種多様な自然言語命令に変換するための大規模言語モデルを提供する。
- 参考スコア(独自算出の注目度): 8.399234415641319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image editing has advanced significantly with the introduction of text-conditioned diffusion models. Despite this progress, seamlessly adding objects to images based on textual instructions without requiring user-provided input masks remains a challenge. We address this by leveraging the insight that removing objects (Inpaint) is significantly simpler than its inverse process of adding them (Paint), attributed to the utilization of segmentation mask datasets alongside inpainting models that inpaint within these masks. Capitalizing on this realization, by implementing an automated and extensive pipeline, we curate a filtered large-scale image dataset containing pairs of images and their corresponding object-removed versions. Using these pairs, we train a diffusion model to inverse the inpainting process, effectively adding objects into images. Unlike other editing datasets, ours features natural target images instead of synthetic ones; moreover, it maintains consistency between source and target by construction. Additionally, we utilize a large Vision-Language Model to provide detailed descriptions of the removed objects and a Large Language Model to convert these descriptions into diverse, natural-language instructions. We show that the trained model surpasses existing ones both qualitatively and quantitatively, and release the large-scale dataset alongside the trained models for the community.
- Abstract(参考訳): 画像編集はテキスト条件の拡散モデルの導入によって大幅に進歩した。
この進歩にもかかわらず、ユーザが提供する入力マスクを必要とせずに、テキスト命令に基づく画像にオブジェクトをシームレスに追加することは、依然として課題である。
対象(Inpaint)の除去は,これらのマスク内にインペイントされたインペイントモデルとともにセグメンテーションマスクデータセットの利用による,その逆プロセス(Paint)よりもはるかに単純である,という知見を活用することで,この問題に対処する。
この実現に乗じて、自動化された広範囲なパイプラインを実装することにより、一対のイメージとそれに対応するオブジェクト除去バージョンを含むフィルタ付き大規模画像データセットをキュレートする。
これらのペアを用いて,画像にオブジェクトを効果的に付加することにより,塗布過程を逆転させる拡散モデルを訓練する。
他の編集データセットとは異なり、我々は合成データセットではなく、自然なターゲットイメージを特徴としている。
さらに、大きな視覚言語モデルを用いて、削除されたオブジェクトの詳細な記述と、これらの記述を多種多様な自然言語命令に変換するための大規模言語モデルを提供する。
トレーニングされたモデルは,定性的かつ定量的に既存のモデルを超え,コミュニティのためのトレーニングされたモデルと並行して大規模データセットをリリースすることを示す。
関連論文リスト
- Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model [81.96954332787655]
テキスト制御のみによるテキスト誘導オブジェクトの追加を容易にするテキスト・ツー・イメージ(T2I)モデルであるDiffreeを紹介する。
実験では、Diffreeはバックグラウンドの一貫性、空間、オブジェクトの関連性、品質を維持しながら、高い成功率を持つ新しいオブジェクトを追加します。
論文 参考訳(メタデータ) (2024-07-24T03:58:58Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。
この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。
オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文 参考訳(メタデータ) (2024-02-26T09:21:17Z) - Towards Language-Driven Video Inpainting via Multimodal Large Language Models [116.22805434658567]
言語駆動型ビデオインペインティングという,新たなタスクを紹介します。
インペイントプロセスのガイドには自然言語命令を使用する。
Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
論文 参考訳(メタデータ) (2024-01-18T18:59:13Z) - Unlocking Spatial Comprehension in Text-to-Image Diffusion Models [33.99474729408903]
CompFuserは、テキストから画像への生成モデルにおける空間的理解と属性割り当てを強化する画像生成パイプラインである。
我々のパイプラインは、シーン内のオブジェクト間の空間的関係を定義する命令の解釈を可能にする。
論文 参考訳(メタデータ) (2023-11-28T19:00:02Z) - Magicremover: Tuning-free Text-guided Image inpainting with Diffusion
Models [24.690863845885367]
我々は,テキスト誘導画像のインペイントに強力な拡散モデルを利用する,チューニング不要なMagicRemoverを提案する。
本研究では,拡散モデルのサンプリング過程を制限し,指示された領域の消去と閉鎖されたコンテンツの復元を可能にするための注意誘導戦略を導入する。
論文 参考訳(メタデータ) (2023-10-04T14:34:11Z) - Inst-Inpaint: Instructing to Remove Objects with Diffusion Models [18.30057229657246]
本研究では,自然言語入力に基づいて除去対象を推定し,同時に除去する画像インペイントアルゴリズムに興味を持つ。
本稿では,テキストプロンプトとして与えられた命令に基づいて画像からオブジェクトを除去する新しいインペイントフレームワークInst-Inpaintを提案する。
論文 参考訳(メタデータ) (2023-04-06T17:29:50Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。