論文の概要: ObjectAdd: Adding Objects into Image via a Training-Free Diffusion Modification Fashion
- arxiv url: http://arxiv.org/abs/2404.17230v1
- Date: Fri, 26 Apr 2024 08:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 13:44:15.341855
- Title: ObjectAdd: Adding Objects into Image via a Training-Free Diffusion Modification Fashion
- Title(参考訳): ObjectAdd: トレーニング不要な拡散修正ファシオンによるイメージへのオブジェクトの追加
- Authors: Ziyue Zhang, Mingbao Lin, Rongrong Ji,
- Abstract要約: 我々は,ユーザ指定領域にユーザ予測オブジェクトを追加するトレーニング不要な拡散修正手法であるObjectAddを紹介する。
テキストをプロンプトした画像では、ユーザがボックスとオブジェクトを指定することができ、(1) ボックス領域内にオブジェクトを追加すること、(2) ボックス領域の外で正確なコンテンツを追加すること、(3) ボックス領域間の不完全な融合を実現する。
- 参考スコア(独自算出の注目度): 68.3013463352728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ObjectAdd, a training-free diffusion modification method to add user-expected objects into user-specified area. The motive of ObjectAdd stems from: first, describing everything in one prompt can be difficult, and second, users often need to add objects into the generated image. To accommodate with real world, our ObjectAdd maintains accurate image consistency after adding objects with technical innovations in: (1) embedding-level concatenation to ensure correct text embedding coalesce; (2) object-driven layout control with latent and attention injection to ensure objects accessing user-specified area; (3) prompted image inpainting in an attention refocusing & object expansion fashion to ensure rest of the image stays the same. With a text-prompted image, our ObjectAdd allows users to specify a box and an object, and achieves: (1) adding object inside the box area; (2) exact content outside the box area; (3) flawless fusion between the two areas
- Abstract(参考訳): 我々は,ユーザ指定領域にユーザ予測オブジェクトを追加するトレーニング不要な拡散修正手法であるObjectAddを紹介する。
ObjectAddの動機は次のようなものだ。 1つは、すべてのことを1つのプロンプトで記述することが難しいこと、2つ目は、ユーザが生成したイメージにオブジェクトを追加する必要があること。
実世界に対応するため,ObjectAddは,(1) 適切なテキスト埋め込み合体を保証するための埋め込みレベル結合,(2) 潜時および注意注入によるオブジェクト駆動レイアウト制御によるユーザ指定領域へのアクセスを保証するためのオブジェクト駆動レイアウト制御,(3) 注意再焦点化・オブジェクト拡張方式による画像インペインティングにより,画像の残りが同一であることを保証する。
テキストプロンプトされた画像により、ObjectAddはユーザーがボックスとオブジェクトを指定することができ、(1) ボックス領域内にオブジェクトを追加し、(2) ボックス領域の外に正確なコンテンツを追加し、(3) ボックス領域間の不完全な融合を実現する。
関連論文リスト
- Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model [81.96954332787655]
テキスト制御のみによるテキスト誘導オブジェクトの追加を容易にするテキスト・ツー・イメージ(T2I)モデルであるDiffreeを紹介する。
実験では、Diffreeはバックグラウンドの一貫性、空間、オブジェクトの関連性、品質を維持しながら、高い成功率を持つ新しいオブジェクトを追加します。
論文 参考訳(メタデータ) (2024-07-24T03:58:58Z) - Customizing Text-to-Image Diffusion with Camera Viewpoint Control [53.621518249820745]
モデルカスタマイズのためのカメラ視点の明示的な制御を可能にする新しいタスクを導入する。
これにより、テキストプロンプトによって、さまざまな背景シーンのオブジェクトプロパティを変更することができます。
本稿では,新しいオブジェクトのレンダリング・ビュー依存的な特徴に対して,2次元拡散過程を条件付けることを提案する。
論文 参考訳(メタデータ) (2024-04-18T16:59:51Z) - SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing [51.857176097841936]
SwapAnythingは、イメージ内の任意のオブジェクトを参照によって与えられるパーソナライズされた概念に置き換えることのできる、新しいフレームワークである。
1)主主題ではなく任意の対象や部分の精密な制御,(2)コンテキスト画素のより忠実な保存,(3)イメージへのパーソナライズされた概念の適応,の3つの特徴がある。
論文 参考訳(メタデータ) (2024-04-08T17:52:29Z) - DreamCom: Finetuning Text-guided Inpainting Model for Image Composition [24.411003826961686]
本研究では、画像合成を、特定の対象に対してカスタマイズされた画像インペイントとして扱うことで、DreamComを提案する。
具体的には、同じオブジェクトを含むいくつかの参照画像に基づいて、事前学習したテキスト誘導画像の塗装モデルを精査する。
実際には、挿入された物体は背景の影響を受けやすいため、陰性な背景干渉を避けるためにマスキングされた注意機構を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:23:50Z) - Collage Diffusion [17.660410448312717]
Collage Diffusionは入力層を調和させ、オブジェクトを一緒にフィットさせる。
我々は,各層ごとの特殊テキスト表現を学習することで,入力層の重要な視覚特性を保存する。
Collage Diffusionは、望まれるオブジェクト特性を以前のアプローチよりも良く維持する、グローバルに調和した画像を生成する。
論文 参考訳(メタデータ) (2023-03-01T06:35:42Z) - Shape-guided Object Inpainting [84.18768707298105]
本研究は,新しい画像インペイント,すなわち形状誘導物体インペイントについて研究する。
本研究では,新しいデータ作成手法と新しいコンテキストオブジェクト生成器(CogNet)を提案する。
実験により,提案手法は視覚的外観と意味的意味の両方の観点からコンテキストに適合する現実的なオブジェクトを生成することができることが示された。
論文 参考訳(メタデータ) (2022-04-16T17:19:11Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。