論文の概要: Strictly-ID-Preserved and Controllable Accessory Advertising Image Generation
- arxiv url: http://arxiv.org/abs/2404.04828v1
- Date: Sun, 7 Apr 2024 06:28:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:30:39.087605
- Title: Strictly-ID-Preserved and Controllable Accessory Advertising Image Generation
- Title(参考訳): 厳密なID保存・制御可能なアクセトリー広告画像生成
- Authors: Youze Xue, Binghui Chen, Yifeng Geng, Xuansong Xie, Jiansheng Chen, Hongbing Ma,
- Abstract要約: 我々は、制御ネットに基づくカスタマイズされた画像生成パイプラインを開発した。
我々のアプローチは、イヤリングとモデルの顔とのシームレスな相互作用を促進する。
提案手法は, 生成したモデルの顔のきめ細かい制御を実現し, 広告効果を制御し, 獲得する。
- 参考スコア(独自算出の注目度): 26.70908496728137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customized generative text-to-image models have the ability to produce images that closely resemble a given subject. However, in the context of generating advertising images for e-commerce scenarios, it is crucial that the generated subject's identity aligns perfectly with the product being advertised. In order to address the need for strictly-ID preserved advertising image generation, we have developed a Control-Net based customized image generation pipeline and have taken earring model advertising as an example. Our approach facilitates a seamless interaction between the earrings and the model's face, while ensuring that the identity of the earrings remains intact. Furthermore, to achieve a diverse and controllable display, we have proposed a multi-branch cross-attention architecture, which allows for control over the scale, pose, and appearance of the model, going beyond the limitations of text prompts. Our method manages to achieve fine-grained control of the generated model's face, resulting in controllable and captivating advertising effects.
- Abstract(参考訳): カスタム・ジェネレーティブ・テキスト・ツー・イメージ・モデルは、与えられた主題によく似た画像を生成する能力を持つ。
しかし、電子商取引シナリオの広告画像生成の文脈では、生成した被験者のアイデンティティが商品の広告と完全に一致していることが重要である。
厳密なID保存型広告画像生成の必要性に対処するため,制御ネットを用いたカスタマイズ画像生成パイプラインを開発した。
当社のアプローチは、イヤリングとモデルの顔とのシームレスな相互作用を促進すると同時に、イヤリングの同一性が維持されていることを保証します。
さらに,多彩で制御可能なディスプレイを実現するために,テキストプロンプトの制限を超えて,モデルのスケール,ポーズ,外観を制御できるマルチブランチ・クロスアテンションアーキテクチャを提案する。
提案手法は, 生成したモデルの顔のきめ細かい制御を実現し, 広告効果を制御し, 獲得する。
関連論文リスト
- EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation [17.169772329737913]
LocRef-Diffusionは、画像内の複数のインスタンスの外観と位置をカスタマイズできるチューニング不要のモデルである。
インスタンス配置の精度を高めるために,インスタンス生成位置を制御するレイアウトネットを導入する。
参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出する外観ネットを用いる。
論文 参考訳(メタデータ) (2024-11-22T08:44:39Z) - Chaining text-to-image and large language model: A novel approach for generating personalized e-commerce banners [8.508453886143677]
オンライン買い物客向けにパーソナライズされたWebバナーを生成するために,テキスト・ツー・イメージ・モデルを用いることを実証する。
このアプローチの新規性は、ユーザーのインタラクションデータを人間の介入なしに意味のあるプロンプトに変換することである。
提案手法は,ユーザに対して高品質なパーソナライズバナーを作成できることを示す。
論文 参考訳(メタデータ) (2024-02-28T07:56:04Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - Generate Anything Anywhere in Any Scene [25.75076439397536]
パーソナライズされたオブジェクト生成のための制御可能なテキスト・画像拡散モデルを提案する。
本手法は,芸術,エンターテイメント,広告デザインなど,様々な応用の可能性を示すものである。
論文 参考訳(メタデータ) (2023-06-29T17:55:14Z) - Diffusion Self-Guidance for Controllable Image Generation [106.59989386924136]
自己誘導(Self-guidance)は、拡散モデルの内部表現を導くことによって、生成された画像に対するより深い制御を提供する。
課題の画像操作を行うために、簡単なプロパティセットをいかに構成できるかを示す。
また,実画像の編集に自己指導が有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:56Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators [63.85888518950824]
生成モデルを新しいドメインに移行できるテキスト駆動方式を提案する。
自然言語のプロンプトと数分の訓練によって、我々の手法は複数のドメインにまたがってジェネレータを適応させることができることを示す。
論文 参考訳(メタデータ) (2021-08-02T14:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。