論文の概要: PAID: A Framework of Product-Centric Advertising Image Design
- arxiv url: http://arxiv.org/abs/2501.14316v1
- Date: Fri, 24 Jan 2025 08:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:55.418214
- Title: PAID: A Framework of Product-Centric Advertising Image Design
- Title(参考訳): PAID:イメージデザインを商品中心で広告するフレームワーク
- Authors: Hongyu Chen, Min Zhou, Jing Jiang, Jiale Chen, Yang Lu, Bo Xiao, Tiezheng Ge, Bo Zheng,
- Abstract要約: Eコマースプラットフォームでは、完全な広告画像は背景画像とマーケティングタグラインで構成されている。
本稿では,PAID(Product-Centric Advertising Image Design)という新しいフレームワークを提案する。
PAIDは製品フォアグラウンドイメージ、必要なタグライン、ターゲットサイズを入力として、自動的に広告画像を生成する。
- 参考スコア(独自算出の注目度): 31.08944590096747
- License:
- Abstract: In E-commerce platforms, a full advertising image is composed of a background image and marketing taglines. Automatic ad image design reduces human costs and plays a crucial role. For the convenience of users, a novel automatic framework named Product-Centric Advertising Image Design (PAID) is proposed in this work. PAID takes the product foreground image, required taglines, and target size as input and creates an ad image automatically. PAID consists of four sequential stages: prompt generation, layout generation, background image generation, and graphics rendering. Different expert models are trained to conduct these sub-tasks. A visual language model (VLM) based prompt generation model is leveraged to produce a product-matching background prompt. The layout generation model jointly predicts text and image layout according to the background prompt, product, and taglines to achieve the best harmony. An SDXL-based layout-controlled inpainting model is trained to generate an aesthetic background image. Previous ad image design methods take a background image as input and then predict the layout of taglines, which limits the spatial layout due to fixed image content. Innovatively, our PAID adjusts the stages to produce an unrestricted layout. To complete the PAID framework, we created two high-quality datasets, PITA and PIL. Extensive experimental results show that PAID creates more visually pleasing advertising images than previous methods.
- Abstract(参考訳): Eコマースプラットフォームでは、完全な広告画像は背景画像とマーケティングタグラインで構成されている。
自動広告画像デザインは人件費を削減し、重要な役割を果たす。
利用者の便宜のために,PAID(Product-Centric Advertising Image Design)という新しい自動フレームワークを提案する。
PAIDは製品フォアグラウンドイメージ、必要なタグライン、ターゲットサイズを入力として、自動的に広告画像を生成する。
PAIDは、プロンプト生成、レイアウト生成、背景画像生成、グラフィックレンダリングの4段階からなる。
これらのサブタスクを実行するために、さまざまな専門家モデルが訓練されている。
視覚言語モデル(VLM)に基づくプロンプト生成モデルを利用して、製品にマッチするバックグラウンドプロンプトを生成する。
レイアウト生成モデルは、背景プロンプト、製品、タグラインに応じてテキストと画像のレイアウトを共同で予測し、最適な調和を達成する。
SDXLベースのレイアウト制御塗装モデルを訓練し、美的背景画像を生成する。
従来の広告画像設計手法では、背景画像を入力として、タグラインのレイアウトを予測し、固定された画像の内容による空間的レイアウトを制限する。
革新的に、PAIDはステージを調整し、制限のないレイアウトを生成する。
PAIDフレームワークを完成させるために、PITAとPILという2つの高品質なデータセットを作成しました。
広汎な実験結果から,PAIDは従来の方法よりも視覚的に満足な広告画像を生成することが明らかとなった。
関連論文リスト
- CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。
生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。
本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-05T09:06:02Z) - Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。
T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Anywhere: A Multi-Agent Framework for Reliable and Diverse Foreground-Conditioned Image Inpainting [28.65445105418749]
我々は,前景画像の塗布における課題に対処するために設計された,先駆的なマルチエージェントフレームワークであるAnywhereを紹介した。
Anywhereには、ビジュアル言語モデル、大規模言語モデル、画像生成モデルなど、さまざまなエージェントが採用されている。
前景の塗装、「過剰想像」の緩和、前景の背景の相違の解消、多様性の向上などである。
論文 参考訳(メタデータ) (2024-04-29T11:13:37Z) - Planning and Rendering: Towards Product Poster Generation with Diffusion Models [21.45855580640437]
P&Rという拡散モデルに基づく新しい製品ポスター生成フレームワークを提案する。
計画段階では、製品やその他のビジュアルコンポーネントのレイアウトを生成するためのPlanNetを提案する。
レンダリング段階では、生成したレイアウトを考慮しつつ、製品の背景を生成するRenderNetを提案する。
提案手法は, PPG30k上での最先端の製品ポスター生成手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-14T11:11:50Z) - Staging E-Commerce Products for Online Advertising using Retrieval
Assisted Image Generation [11.03803158931361]
本稿では,非ステージ製品画像の背景生成にGAN(Generative Adversarial Network)を用いた手法を提案する。
当社のステージングアプローチは,製品イメージからビデオ広告に導かれる商品のアニメーションを,どのように実現できるかを示す。
論文 参考訳(メタデータ) (2023-07-28T06:04:46Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Automatic Generation of Product-Image Sequence in E-commerce [46.06263129000091]
MUIsC(Multi-modality Unified Imagesequence)は、ルール違反を学習することで、すべてのカテゴリを同時に検出できる。
2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
論文 参考訳(メタデータ) (2022-06-26T23:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。