論文の概要: LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation
- arxiv url: http://arxiv.org/abs/2411.15252v1
- Date: Fri, 22 Nov 2024 08:44:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:48.591663
- Title: LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation
- Title(参考訳): LocRef拡散:無調整レイアウトと出現誘導発生
- Authors: Fan Deng, Yaguang Wu, Xinyang Yu, Xiangjun Huang, Jian Yang, Guangyu Yan, Qiang Xu,
- Abstract要約: LocRef-Diffusionは、画像内の複数のインスタンスの外観と位置をカスタマイズできるチューニング不要のモデルである。
インスタンス配置の精度を高めるために,インスタンス生成位置を制御するレイアウトネットを導入する。
参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出する外観ネットを用いる。
- 参考スコア(独自算出の注目度): 17.169772329737913
- License:
- Abstract: Recently, text-to-image models based on diffusion have achieved remarkable success in generating high-quality images. However, the challenge of personalized, controllable generation of instances within these images remains an area in need of further development. In this paper, we present LocRef-Diffusion, a novel, tuning-free model capable of personalized customization of multiple instances' appearance and position within an image. To enhance the precision of instance placement, we introduce a Layout-net, which controls instance generation locations by leveraging both explicit instance layout information and an instance region cross-attention module. To improve the appearance fidelity to reference images, we employ an appearance-net that extracts instance appearance features and integrates them into the diffusion model through cross-attention mechanisms. We conducted extensive experiments on the COCO and OpenImages datasets, and the results demonstrate that our proposed method achieves state-of-the-art performance in layout and appearance guided generation.
- Abstract(参考訳): 近年,拡散に基づくテキスト・画像モデルが高品質な画像生成に成功している。
しかしながら、これらの画像内のパーソナライズされた制御可能なインスタンスの生成という課題は、さらなる開発を必要とする領域のままである。
本稿では、画像内の複数インスタンスの外観と位置をカスタマイズできる新しいチューニング不要モデルであるLocRef-Diffusionを提案する。
インスタンス配置の精度を高めるために、明示的なインスタンスレイアウト情報とインスタンス領域のクロスアテンションモジュールの両方を活用することで、インスタンス生成位置を制御するLayout-netを導入する。
参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出し,クロスアテンション機構を通じて拡散モデルに統合する外観ネットを用いる。
我々はCOCOデータセットとOpenImagesデータセットについて広範な実験を行い、提案手法がレイアウトおよび外観ガイド生成における最先端性能を実現することを実証した。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - FilterPrompt: Guiding Image Transfer in Diffusion Models [9.386850486378382]
FilterPromptは、モデル制御効果を強化するアプローチである。
任意の拡散モデルに普遍的に適用することができ、ユーザーは特定の画像の特徴の表現を調整できる。
論文 参考訳(メタデータ) (2024-04-20T04:17:34Z) - LCM-Lookahead for Encoder-based Text-to-Image Personalization [82.56471486184252]
我々は,テキスト・ツー・イメージ・モデルのパーソナライズを導くために,ショートカット・メカニズムを利用する可能性を探る。
エンコーダをベースとしたパーソナライズ手法に焦点をあてて、ルックアヘッドのアイデンティティ損失を調整することで、より高いアイデンティティの忠実性を達成できることを実証する。
論文 参考訳(メタデータ) (2024-04-04T17:43:06Z) - GazeFusion: Saliency-guided Image Generation [50.37783903347613]
拡散モデルは、テキストプロンプトだけを前提として、前例のない画像生成機能を提供する。
本稿では,人間の視覚的注意の先行するデータを生成プロセスに組み込むためのサリエンシ誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-16T21:01:35Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Diffusion Self-Guidance for Controllable Image Generation [106.59989386924136]
自己誘導(Self-guidance)は、拡散モデルの内部表現を導くことによって、生成された画像に対するより深い制御を提供する。
課題の画像操作を行うために、簡単なプロパティセットをいかに構成できるかを示す。
また,実画像の編集に自己指導が有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:56Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - Unifying Layout Generation with a Decoupled Diffusion Model [26.659337441975143]
これは、出版物、文書、ユーザーインターフェース(UI)などのフォーマットされたシーンに対する重厚なグラフィックデザイン作業の負担を軽減するための重要なタスクである。
単一分離拡散モデルでそのような統一を実現するためのレイアウト拡散生成モデル(LDGM)を提案する。
提案するLDGMは,任意の属性に対してスクラッチあるいは条件付きでレイアウトを生成することができる。
論文 参考訳(メタデータ) (2023-03-09T05:53:32Z) - LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。
提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-02-16T14:20:25Z) - Paint by Example: Exemplar-based Image Editing with Diffusion Models [35.84464684227222]
本稿では,より精密な制御のための画像編集について検討する。
我々は、この目標を達成するために、自己指導型トレーニングを活用して、ソースイメージとインスペクタをアンタングルし、再編成する。
提案手法は印象的な性能を実現し,高忠実度で画像の編集を制御できることを実証する。
論文 参考訳(メタデータ) (2022-11-23T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。