論文の概要: Strictly-ID-Preserved and Controllable Accessory Advertising Image Generation
- arxiv url: http://arxiv.org/abs/2404.04828v1
- Date: Sun, 7 Apr 2024 06:28:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:30:39.087605
- Title: Strictly-ID-Preserved and Controllable Accessory Advertising Image Generation
- Title(参考訳): 厳密なID保存・制御可能なアクセトリー広告画像生成
- Authors: Youze Xue, Binghui Chen, Yifeng Geng, Xuansong Xie, Jiansheng Chen, Hongbing Ma,
- Abstract要約: 我々は、制御ネットに基づくカスタマイズされた画像生成パイプラインを開発した。
我々のアプローチは、イヤリングとモデルの顔とのシームレスな相互作用を促進する。
提案手法は, 生成したモデルの顔のきめ細かい制御を実現し, 広告効果を制御し, 獲得する。
- 参考スコア(独自算出の注目度): 26.70908496728137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customized generative text-to-image models have the ability to produce images that closely resemble a given subject. However, in the context of generating advertising images for e-commerce scenarios, it is crucial that the generated subject's identity aligns perfectly with the product being advertised. In order to address the need for strictly-ID preserved advertising image generation, we have developed a Control-Net based customized image generation pipeline and have taken earring model advertising as an example. Our approach facilitates a seamless interaction between the earrings and the model's face, while ensuring that the identity of the earrings remains intact. Furthermore, to achieve a diverse and controllable display, we have proposed a multi-branch cross-attention architecture, which allows for control over the scale, pose, and appearance of the model, going beyond the limitations of text prompts. Our method manages to achieve fine-grained control of the generated model's face, resulting in controllable and captivating advertising effects.
- Abstract(参考訳): カスタム・ジェネレーティブ・テキスト・ツー・イメージ・モデルは、与えられた主題によく似た画像を生成する能力を持つ。
しかし、電子商取引シナリオの広告画像生成の文脈では、生成した被験者のアイデンティティが商品の広告と完全に一致していることが重要である。
厳密なID保存型広告画像生成の必要性に対処するため,制御ネットを用いたカスタマイズ画像生成パイプラインを開発した。
当社のアプローチは、イヤリングとモデルの顔とのシームレスな相互作用を促進すると同時に、イヤリングの同一性が維持されていることを保証します。
さらに,多彩で制御可能なディスプレイを実現するために,テキストプロンプトの制限を超えて,モデルのスケール,ポーズ,外観を制御できるマルチブランチ・クロスアテンションアーキテクチャを提案する。
提案手法は, 生成したモデルの顔のきめ細かい制御を実現し, 広告効果を制御し, 獲得する。
関連論文リスト
- LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation [17.169772329737913]
LocRef-Diffusionは、画像内の複数のインスタンスの外観と位置をカスタマイズできるチューニング不要のモデルである。
インスタンス配置の精度を高めるために,インスタンス生成位置を制御するレイアウトネットを導入する。
参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出する外観ネットを用いる。
論文 参考訳(メタデータ) (2024-11-22T08:44:39Z) - Chaining text-to-image and large language model: A novel approach for generating personalized e-commerce banners [8.508453886143677]
オンライン買い物客向けにパーソナライズされたWebバナーを生成するために,テキスト・ツー・イメージ・モデルを用いることを実証する。
このアプローチの新規性は、ユーザーのインタラクションデータを人間の介入なしに意味のあるプロンプトに変換することである。
提案手法は,ユーザに対して高品質なパーソナライズバナーを作成できることを示す。
論文 参考訳(メタデータ) (2024-02-28T07:56:04Z) - Towards a Simultaneous and Granular Identity-Expression Control in Personalized Face Generation [34.72612800373437]
人間中心のコンテンツ生成では、事前訓練されたテキスト・ツー・イメージモデルでは、ユーザーが望んだポートレート画像を生成するのに苦労する。
同一性表現の同時制御とよりきめ細かい表現合成が可能な,新しい多モード顔生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-02T13:28:39Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning [6.288699905490906]
本稿では,新しいオープンドメインパーソナライズされた画像生成モデルであるSubject-Diffusionを提案する。
提案手法は,他のSOTAフレームワークよりも,単一,複数,カスタマイズされた画像生成に優れる。
論文 参考訳(メタデータ) (2023-07-21T08:09:47Z) - Generate Anything Anywhere in Any Scene [25.75076439397536]
パーソナライズされたオブジェクト生成のための制御可能なテキスト・画像拡散モデルを提案する。
本手法は,芸術,エンターテイメント,広告デザインなど,様々な応用の可能性を示すものである。
論文 参考訳(メタデータ) (2023-06-29T17:55:14Z) - Diffusion Self-Guidance for Controllable Image Generation [106.59989386924136]
自己誘導(Self-guidance)は、拡散モデルの内部表現を導くことによって、生成された画像に対するより深い制御を提供する。
課題の画像操作を行うために、簡単なプロパティセットをいかに構成できるかを示す。
また,実画像の編集に自己指導が有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:56Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators [63.85888518950824]
生成モデルを新しいドメインに移行できるテキスト駆動方式を提案する。
自然言語のプロンプトと数分の訓練によって、我々の手法は複数のドメインにまたがってジェネレータを適応させることができることを示す。
論文 参考訳(メタデータ) (2021-08-02T14:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。