論文の概要: DreamCom: Finetuning Text-guided Inpainting Model for Image Composition
- arxiv url: http://arxiv.org/abs/2309.15508v1
- Date: Wed, 27 Sep 2023 09:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 14:33:40.338126
- Title: DreamCom: Finetuning Text-guided Inpainting Model for Image Composition
- Title(参考訳): DreamCom: 画像合成のためのテキスト誘導塗装モデル
- Authors: Lingxiao Lu, Bo Zhang, Li Niu
- Abstract要約: 本研究ではDreamBoothにインスパイアされたDreamComという,恥ずかしいほどシンプルなアプローチを提案する。
テキスト誘導塗布拡散モデルを用いて,この被写体を特別なトークンに関連づけ,指定された有界箱に塗布する。
また、このタスクに適したMuleComという新しいデータセットを構築します。
- 参考スコア(独自算出の注目度): 21.655304978608665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of image composition is merging a foreground object into a
background image to obtain a realistic composite image. Recently, generative
composition methods are built on large pretrained diffusion models, due to
their unprecedented image generation ability. They train a model on abundant
pairs of foregrounds and backgrounds, so that it can be directly applied to a
new pair of foreground and background at test time. However, the generated
results often lose the foreground details and exhibit noticeable artifacts. In
this work, we propose an embarrassingly simple approach named DreamCom inspired
by DreamBooth. Specifically, given a few reference images for a subject, we
finetune text-guided inpainting diffusion model to associate this subject with
a special token and inpaint this subject in the specified bounding box. We also
construct a new dataset named MureCom well-tailored for this task.
- Abstract(参考訳): 画像合成の目標は、前景オブジェクトを背景画像にマージして現実的な合成画像を得ることである。
近年,前例のない画像生成能力のため,大規模な事前学習拡散モデル上に生成合成法が構築されている。
彼らは、豊富なフォアグラウンドとバックグラウンドのペアでモデルをトレーニングし、テスト時に新しいフォアグラウンドとバックグラウンドのペアに直接適用できるようにします。
しかし、生成された結果はしばしば前景の詳細を失い、目に見えるアーティファクトを表示する。
本研究ではDreamBoothにインスパイアされたDreamComという,恥ずかしいほどシンプルなアプローチを提案する。
具体的には,被写体の参照画像がいくつか与えられた場合,その被写体を特殊トークンに関連付けるために,テキストガイドによる被写体拡散モデルを微調整し,その被写体を指定された境界ボックスに表示させる。
また、このタスクに適したMuleComという新しいデータセットも構築します。
関連論文リスト
- DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [63.01425442236011]
本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
我々は、前景と背景オブジェクトの両方にゼロショットのインスタンスレベルの空間的グラウンドを実現するフレームワークであるGarthingBoothを紹介した。
提案したテキスト画像グラウンドモジュールとマスク付きクロスアテンション層は、正確なレイアウトアライメントとアイデンティティ保存の両方でパーソナライズされた画像を生成することができる。
論文 参考訳(メタデータ) (2024-09-13T03:40:58Z) - Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model [81.96954332787655]
テキスト制御のみによるテキスト誘導オブジェクトの追加を容易にするテキスト・ツー・イメージ(T2I)モデルであるDiffreeを紹介する。
実験では、Diffreeはバックグラウンドの一貫性、空間、オブジェクトの関連性、品質を維持しながら、高い成功率を持つ新しいオブジェクトを追加します。
論文 参考訳(メタデータ) (2024-07-24T03:58:58Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - SIEDOB: Semantic Image Editing by Disentangling Object and Background [5.149242555705579]
本稿では,セマンティック画像編集のための新しいパラダイムを提案する。
textbfSIEDOB(サイト・英語)は、オブジェクトと背景に対していくつかの異種ワークを明示的に活用する。
我々はCityscapesとADE20K-Roomデータセットに関する広範な実験を行い、本手法がベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-23T06:17:23Z) - SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。
対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文 参考訳(メタデータ) (2022-12-09T18:36:13Z) - Shape-guided Object Inpainting [84.18768707298105]
本研究は,新しい画像インペイント,すなわち形状誘導物体インペイントについて研究する。
本研究では,新しいデータ作成手法と新しいコンテキストオブジェクト生成器(CogNet)を提案する。
実験により,提案手法は視覚的外観と意味的意味の両方の観点からコンテキストに適合する現実的なオブジェクトを生成することができることが示された。
論文 参考訳(メタデータ) (2022-04-16T17:19:11Z) - BachGAN: High-Resolution Image Synthesis from Salient Object Layout [78.51640906030244]
本稿では、より実用的な画像生成のための新しい課題である、有能なオブジェクトレイアウトからの高品質な画像合成を提案する。
i) セグメンテーションマップ入力なしできめ細かい詳細と現実的なテクスチャを生成する方法、(ii) バックグラウンドを作成してスタンドアロンのオブジェクトにシームレスに織り込む方法である。
幻影背景表現を動的に生成することにより,高解像度画像をフォトリアリスティック・フォアグラウンドと積分背景の両方で合成することができる。
論文 参考訳(メタデータ) (2020-03-26T00:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。