論文の概要: PAID: A Framework of Product-Centric Advertising Image Design
- arxiv url: http://arxiv.org/abs/2501.14316v2
- Date: Wed, 12 Feb 2025 06:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:04.041582
- Title: PAID: A Framework of Product-Centric Advertising Image Design
- Title(参考訳): PAID:イメージデザインを商品中心で広告するフレームワーク
- Authors: Hongyu Chen, Min Zhou, Jing Jiang, Jiale Chen, Yang Lu, Bo Xiao, Tiezheng Ge, Bo Zheng,
- Abstract要約: 我々はPAID(Product-Centric Advertising Image Design)と呼ばれる新しいフレームワークを提案する。
プロダクトフォアグラウンドとタグラインをハイライトする4つのステージで構成され、全体像の美学を達成している。
PAIDフレームワークをサポートするために、50,000以上のラベル付き画像を持つ対応するデータセットを作成します。
- 参考スコア(独自算出の注目度): 31.08944590096747
- License:
- Abstract: Creating visually appealing advertising images is often a labor-intensive and time-consuming process. Is it possible to automatically generate such images using only basic product information--specifically, a product foreground image, taglines, and a target size? Existing methods mainly focus on parts of the problem and fail to provide a comprehensive solution. To address this gap, we propose a novel multistage framework called Product-Centric Advertising Image Design (PAID). It consists of four sequential stages to highlight product foregrounds and taglines while achieving overall image aesthetics: prompt generation, layout generation, background image generation, and graphics rendering. Different expert models are designed and trained for the first three stages: First, we use a visual language model (VLM) to generate background prompts that match the products. Next, a VLM-based layout generation model arranges the placement of product foregrounds, graphic elements (taglines and decorative underlays), and various nongraphic elements (objects from the background prompt). Following this, we train an SDXL-based image generation model that can simultaneously accept prompts, layouts, and foreground controls. To support the PAID framework, we create corresponding datasets with over 50,000 labeled images. Extensive experimental results and online A/B tests demonstrate that PAID can produce more visually appealing advertising images.
- Abstract(参考訳): 視覚的に魅力的な広告画像を作成することは、しばしば労働集約的で時間を要するプロセスである。
プロダクトフォアグラウンドイメージやタグライン,ターゲットサイズなど,基本的な製品情報のみを使用して,そのようなイメージを自動的に生成することは可能ですか?
既存の手法は主に問題の一部に焦点を当てており、包括的なソリューションを提供していない。
このギャップに対処するため,PAID(Product-Centric Advertising Image Design)と呼ばれる新しい多段階フレームワークを提案する。
プロンプト生成、レイアウト生成、背景画像生成、グラフィックレンダリングという、全体的なイメージ美学を達成する一方で、製品のフォアグラウンドとタグラインをハイライトする4つのステージで構成されている。
まず、視覚言語モデル(VLM)を使用して、製品にマッチするバックグラウンドプロンプトを生成します。
次に、VLMに基づくレイアウト生成モデルにより、製品フォアグラウンド、グラフィック要素(タグラインおよび装飾アンダーレイ)、および様々な非グラフィック要素(背景プロンプトからのオブジェクト)の配置を配置する。
その後、SDXLベースの画像生成モデルをトレーニングし、プロンプト、レイアウト、前景制御を同時に受け入れる。
PAIDフレームワークをサポートするために、50,000以上のラベル付き画像を持つ対応するデータセットを作成します。
大規模な実験結果とオンラインA/Bテストにより、PAIDはより視覚的に魅力的な広告画像を生成できることが示された。
関連論文リスト
- CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。
生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。
本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-05T09:06:02Z) - Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。
T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Anywhere: A Multi-Agent Framework for Reliable and Diverse Foreground-Conditioned Image Inpainting [28.65445105418749]
我々は,前景画像の塗布における課題に対処するために設計された,先駆的なマルチエージェントフレームワークであるAnywhereを紹介した。
Anywhereには、ビジュアル言語モデル、大規模言語モデル、画像生成モデルなど、さまざまなエージェントが採用されている。
前景の塗装、「過剰想像」の緩和、前景の背景の相違の解消、多様性の向上などである。
論文 参考訳(メタデータ) (2024-04-29T11:13:37Z) - Planning and Rendering: Towards Product Poster Generation with Diffusion Models [21.45855580640437]
P&Rという拡散モデルに基づく新しい製品ポスター生成フレームワークを提案する。
計画段階では、製品やその他のビジュアルコンポーネントのレイアウトを生成するためのPlanNetを提案する。
レンダリング段階では、生成したレイアウトを考慮しつつ、製品の背景を生成するRenderNetを提案する。
提案手法は, PPG30k上での最先端の製品ポスター生成手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-14T11:11:50Z) - Staging E-Commerce Products for Online Advertising using Retrieval
Assisted Image Generation [11.03803158931361]
本稿では,非ステージ製品画像の背景生成にGAN(Generative Adversarial Network)を用いた手法を提案する。
当社のステージングアプローチは,製品イメージからビデオ広告に導かれる商品のアニメーションを,どのように実現できるかを示す。
論文 参考訳(メタデータ) (2023-07-28T06:04:46Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Automatic Generation of Product-Image Sequence in E-commerce [46.06263129000091]
MUIsC(Multi-modality Unified Imagesequence)は、ルール違反を学習することで、すべてのカテゴリを同時に検出できる。
2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
論文 参考訳(メタデータ) (2022-06-26T23:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。