論文の概要: Collage Diffusion
- arxiv url: http://arxiv.org/abs/2303.00262v1
- Date: Wed, 1 Mar 2023 06:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 15:53:10.943770
- Title: Collage Diffusion
- Title(参考訳): コラージュ拡散
- Authors: Vishnu Sarukkai, Linden Li, Arden Ma, Christopher R\'e, Kayvon
Fatahalian
- Abstract要約: テキストは、しばしば所望のターゲット画像に対する曖昧な仕様である。
いくつかのオブジェクトを持つシーンに対して、画像出力を正確に制御することに注力する。
我々は,コラージュ条件拡散アルゴリズムであるColllage Diffusionを導入し,シーン内のオブジェクトの空間的配置と視覚的属性の両方を制御できるようにする。
- 参考スコア(独自算出の注目度): 13.803955150365777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-conditional diffusion models generate high-quality, diverse images.
However, text is often an ambiguous specification for a desired target image,
creating the need for additional user-friendly controls for diffusion-based
image generation. We focus on having precise control over image output for
scenes with several objects. Users control image generation by defining a
collage: a text prompt paired with an ordered sequence of layers, where each
layer is an RGBA image and a corresponding text prompt. We introduce Collage
Diffusion, a collage-conditional diffusion algorithm that allows users to
control both the spatial arrangement and visual attributes of objects in the
scene, and also enables users to edit individual components of generated
images. To ensure that different parts of the input text correspond to the
various locations specified in the input collage layers, Collage Diffusion
modifies text-image cross-attention with the layers' alpha masks. To maintain
characteristics of individual collage layers that are not specified in text,
Collage Diffusion learns specialized text representations per layer. Collage
input also enables layer-based controls that provide fine-grained control over
the final output: users can control image harmonization on a layer-by-layer
basis, and they can edit individual objects in generated images while keeping
other objects fixed. Collage-conditional image generation requires harmonizing
the input collage to make objects fit together--the key challenge involves
minimizing changes in the positions and key visual attributes of objects in the
input collage while allowing other attributes of the collage to change in the
harmonization process. By leveraging the rich information present in layer
input, Collage Diffusion generates globally harmonized images that maintain
desired object locations and visual characteristics better than prior
approaches.
- Abstract(参考訳): テキスト条件拡散モデルは高品質で多様な画像を生成する。
しかし、テキストは望ましい対象画像に対する曖昧な仕様であり、拡散ベースの画像生成のためのユーザフレンドリーな追加制御が必要となる。
いくつかのオブジェクトを持つシーンの映像出力を正確に制御することに注力する。
ユーザはコラージュを定義することで画像生成を制御する: テキストプロンプトと順序付けられた一連のレイヤがペアになっていて、各レイヤはRGBAイメージと対応するテキストプロンプトである。
我々はコラージュ条件拡散アルゴリズムであるColllage Diffusionを導入し、ユーザーはシーン内のオブジェクトの空間的配置と視覚的属性の両方を制御でき、また、生成された画像の個々のコンポーネントを編集することができる。
コラージュ拡散は、入力テキストの異なる部分が入力コラージュ層で指定された様々な位置に対応することを保証するため、テキスト画像のクロスタッチをレイヤーのアルファマスクと修飾する。
テキストに特定されない個々のコラージュ層の特性を維持するため、コラージュ拡散は、レイヤ毎の特殊テキスト表現を学習する。
コラージュ入力はまた、最終的な出力に対するきめ細かい制御を提供する層ベースの制御を可能にする: ユーザーは層単位で画像調和を制御でき、他のオブジェクトを固定しながら生成された画像内の個々のオブジェクトを編集できる。
コラージュ条件の画像生成には、入力コラージュを調和させてオブジェクトを合体させる必要がある - 重要な課題は、入力コラージュ内のオブジェクトの位置や重要な視覚特性の変化を最小限に抑えながら、コラージュの他の属性を調和プロセスで変化させることである。
コラージュ拡散は、層入力に存在するリッチな情報を活用することで、望ましいオブジェクトの位置と視覚特性を以前のアプローチよりもよく維持するグローバルに調和した画像を生成する。
関連論文リスト
- Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [63.01425442236011]
本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing [22.855660721387167]
本研究では,空間認識画像編集タスクを2つのサブタスク,多層ラテント分解と多層ラテント融合の組合せに変換する。
提案手法は,自己ガイドやDiffEditorなど,最新の空間編集手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:35:42Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Localizing Object-level Shape Variations with Text-to-Image Diffusion
Models [60.422435066544814]
本稿では,特定の物体の形状の変化を表現した画像の集合を生成する手法を提案する。
オブジェクトのバリエーションを生成する際の特に課題は、オブジェクトの形状に適用される操作を正確にローカライズすることである。
画像空間の操作をローカライズするために,自己注意層と交差注意層を併用する2つの手法を提案する。
論文 参考訳(メタデータ) (2023-03-20T17:45:08Z) - Learning Layout and Style Reconfigurable GANs for Controllable Image
Synthesis [12.449076001538552]
本稿では,空間的レイアウトからフォトリアリスティックなイメージを合成できる生成モデルを学習するための,最近の課題であるレイアウト・トゥ・イメージ(レイアウト・トゥ・イメージ)に焦点を当てる。
画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化方式によって実現される。
実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
論文 参考訳(メタデータ) (2020-03-25T18:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。