論文の概要: DreamCom: Finetuning Text-guided Inpainting Model for Image Composition
- arxiv url: http://arxiv.org/abs/2309.15508v1
- Date: Wed, 27 Sep 2023 09:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 14:33:40.338126
- Title: DreamCom: Finetuning Text-guided Inpainting Model for Image Composition
- Title(参考訳): DreamCom: 画像合成のためのテキスト誘導塗装モデル
- Authors: Lingxiao Lu, Bo Zhang, Li Niu
- Abstract要約: 本研究ではDreamBoothにインスパイアされたDreamComという,恥ずかしいほどシンプルなアプローチを提案する。
テキスト誘導塗布拡散モデルを用いて,この被写体を特別なトークンに関連づけ,指定された有界箱に塗布する。
また、このタスクに適したMuleComという新しいデータセットを構築します。
- 参考スコア(独自算出の注目度): 21.655304978608665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of image composition is merging a foreground object into a
background image to obtain a realistic composite image. Recently, generative
composition methods are built on large pretrained diffusion models, due to
their unprecedented image generation ability. They train a model on abundant
pairs of foregrounds and backgrounds, so that it can be directly applied to a
new pair of foreground and background at test time. However, the generated
results often lose the foreground details and exhibit noticeable artifacts. In
this work, we propose an embarrassingly simple approach named DreamCom inspired
by DreamBooth. Specifically, given a few reference images for a subject, we
finetune text-guided inpainting diffusion model to associate this subject with
a special token and inpaint this subject in the specified bounding box. We also
construct a new dataset named MureCom well-tailored for this task.
- Abstract(参考訳): 画像合成の目標は、前景オブジェクトを背景画像にマージして現実的な合成画像を得ることである。
近年,前例のない画像生成能力のため,大規模な事前学習拡散モデル上に生成合成法が構築されている。
彼らは、豊富なフォアグラウンドとバックグラウンドのペアでモデルをトレーニングし、テスト時に新しいフォアグラウンドとバックグラウンドのペアに直接適用できるようにします。
しかし、生成された結果はしばしば前景の詳細を失い、目に見えるアーティファクトを表示する。
本研究ではDreamBoothにインスパイアされたDreamComという,恥ずかしいほどシンプルなアプローチを提案する。
具体的には,被写体の参照画像がいくつか与えられた場合,その被写体を特殊トークンに関連付けるために,テキストガイドによる被写体拡散モデルを微調整し,その被写体を指定された境界ボックスに表示させる。
また、このタスクに適したMuleComという新しいデータセットも構築します。
関連論文リスト
- Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - SIEDOB: Semantic Image Editing by Disentangling Object and Background [5.149242555705579]
本稿では,セマンティック画像編集のための新しいパラダイムを提案する。
textbfSIEDOB(サイト・英語)は、オブジェクトと背景に対していくつかの異種ワークを明示的に活用する。
我々はCityscapesとADE20K-Roomデータセットに関する広範な実験を行い、本手法がベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-23T06:17:23Z) - SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。
対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文 参考訳(メタデータ) (2022-12-09T18:36:13Z) - LayoutBERT: Masked Language Layout Model for Object Insertion [3.4806267677524896]
本稿では,オブジェクト挿入タスクのためのレイアウトBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
各種ドメインからのデータセットの質的および定量的評価を行う。
論文 参考訳(メタデータ) (2022-04-30T21:35:38Z) - Shape-guided Object Inpainting [84.18768707298105]
本研究は,新しい画像インペイント,すなわち形状誘導物体インペイントについて研究する。
本研究では,新しいデータ作成手法と新しいコンテキストオブジェクト生成器(CogNet)を提案する。
実験により,提案手法は視覚的外観と意味的意味の両方の観点からコンテキストに適合する現実的なオブジェクトを生成することができることが示された。
論文 参考訳(メタデータ) (2022-04-16T17:19:11Z) - BachGAN: High-Resolution Image Synthesis from Salient Object Layout [78.51640906030244]
本稿では、より実用的な画像生成のための新しい課題である、有能なオブジェクトレイアウトからの高品質な画像合成を提案する。
i) セグメンテーションマップ入力なしできめ細かい詳細と現実的なテクスチャを生成する方法、(ii) バックグラウンドを作成してスタンドアロンのオブジェクトにシームレスに織り込む方法である。
幻影背景表現を動的に生成することにより,高解像度画像をフォトリアリスティック・フォアグラウンドと積分背景の両方で合成することができる。
論文 参考訳(メタデータ) (2020-03-26T00:54:44Z) - Generating Object Stamps [47.20601520671103]
GANアーキテクチャを用いて,様々な前景オブジェクトを生成し,背景画像に合成するアルゴリズムを提案する。
挑戦的なCOCOデータセットの結果,最先端のオブジェクト挿入手法と比較して,全体的な品質と多様性が向上した。
論文 参考訳(メタデータ) (2020-01-01T14:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。