論文の概要: Collage Diffusion
- arxiv url: http://arxiv.org/abs/2303.00262v2
- Date: Thu, 31 Aug 2023 09:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 20:49:45.631277
- Title: Collage Diffusion
- Title(参考訳): コラージュ拡散
- Authors: Vishnu Sarukkai, Linden Li, Arden Ma, Christopher R\'e, Kayvon
Fatahalian
- Abstract要約: Collage Diffusionは入力層を調和させ、オブジェクトを一緒にフィットさせる。
我々は,各層ごとの特殊テキスト表現を学習することで,入力層の重要な視覚特性を保存する。
Collage Diffusionは、望まれるオブジェクト特性を以前のアプローチよりも良く維持する、グローバルに調和した画像を生成する。
- 参考スコア(独自算出の注目度): 17.660410448312717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We seek to give users precise control over diffusion-based image generation
by modeling complex scenes as sequences of layers, which define the desired
spatial arrangement and visual attributes of objects in the scene. Collage
Diffusion harmonizes the input layers to make objects fit together -- the key
challenge involves minimizing changes in the positions and key visual
attributes of the input layers while allowing other attributes to change in the
harmonization process. We ensure that objects are generated in the correct
locations by modifying text-image cross-attention with the layers' alpha masks.
We preserve key visual attributes of input layers by learning specialized text
representations per layer and by extending ControlNet to operate on layers.
Layer input allows users to control the extent of image harmonization on a
per-object basis, and users can even iteratively edit individual objects in
generated images while keeping other objects fixed. By leveraging the rich
information present in layer input, Collage Diffusion generates globally
harmonized images that maintain desired object characteristics better than
prior approaches.
- Abstract(参考訳): 複雑なシーンを,所望の空間配置とシーン内のオブジェクトの視覚的属性を定義するレイヤのシーケンスとしてモデル化することにより,拡散に基づく画像生成の正確な制御をユーザに提供する。
Collage Diffusionは入力層を調和させてオブジェクトを適合させる -- 重要な課題は、入力層の位置や重要な視覚特性の変化を最小限に抑えながら、他の属性を調和プロセスで変更できるようにすることである。
テキストイメージのクロスアテンションをレイヤのアルファマスクで修正することで、オブジェクトが正しい位置で生成されることを保証する。
入力層の主要な視覚的属性は、層ごとの特殊テキスト表現を学習し、また、層上で操作できるようにコントロールネットを拡張することで保持する。
レイヤ入力により、ユーザはオブジェクトごとにイメージの調和度を制御でき、ユーザーは生成されたイメージ内の個々のオブジェクトを反復的に編集し、他のオブジェクトを固定することもできる。
コラージュ拡散は、層入力に存在するリッチな情報を活用することで、以前のアプローチよりも望ましいオブジェクト特性を維持するグローバルに調和した画像を生成する。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Move Anything with Layered Scene Diffusion [77.45870343845492]
拡散サンプリング過程におけるシーン表現を最適化するために,SceneDiffusionを提案する。
我々の重要な洞察は、異なる空間配置のシーンレンダリングを共同でデノベートすることで、空間的ゆがみを得ることができることである。
生成したシーンは、移動、再サイズ、クローニング、レイヤーワイドな外観編集操作を含む、幅広い空間編集操作をサポートする。
論文 参考訳(メタデータ) (2024-04-10T17:28:16Z) - DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing [22.855660721387167]
本研究では,空間認識画像編集タスクを2つのサブタスク,多層ラテント分解と多層ラテント融合の組合せに変換する。
提案手法は,自己ガイドやDiffEditorなど,最新の空間編集手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:35:42Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - Localizing Object-level Shape Variations with Text-to-Image Diffusion
Models [60.422435066544814]
本稿では,特定の物体の形状の変化を表現した画像の集合を生成する手法を提案する。
オブジェクトのバリエーションを生成する際の特に課題は、オブジェクトの形状に適用される操作を正確にローカライズすることである。
画像空間の操作をローカライズするために,自己注意層と交差注意層を併用する2つの手法を提案する。
論文 参考訳(メタデータ) (2023-03-20T17:45:08Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Learning Layout and Style Reconfigurable GANs for Controllable Image
Synthesis [12.449076001538552]
本稿では,空間的レイアウトからフォトリアリスティックなイメージを合成できる生成モデルを学習するための,最近の課題であるレイアウト・トゥ・イメージ(レイアウト・トゥ・イメージ)に焦点を当てる。
画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化方式によって実現される。
実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
論文 参考訳(メタデータ) (2020-03-25T18:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。