論文の概要: T-Stars-Poster: A Framework for Product-Centric Advertising Image Design
- arxiv url: http://arxiv.org/abs/2501.14316v3
- Date: Thu, 28 Aug 2025 05:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 13:55:30.744854
- Title: T-Stars-Poster: A Framework for Product-Centric Advertising Image Design
- Title(参考訳): T-Stars-Poster: プロダクト中心のイメージデザインのためのフレームワーク
- Authors: Hongyu Chen, Min Zhou, Jing Jiang, Jiale Chen, Yang Lu, Zihang Lin, Bo Xiao, Tiezheng Ge, Bo Zheng,
- Abstract要約: 本稿では,T-Stars-Posterという,広告画像デザインのための新しい製品中心のフレームワークを提案する。
プロダクトフォアグラウンドとタグラインをハイライトする4つのステージで構成され、全体像の美学を達成している。
T-Stars-Posterをサポートするために、50,000以上のラベル付き画像を持つ2つの対応するデータセットを作成します。
- 参考スコア(独自算出の注目度): 29.692534186696452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating advertising images is often a labor-intensive and time-consuming process. Can we automatically generate such images using basic product information like a product foreground image, taglines, and a target size? Existing methods mainly focus on parts of the problem and lack a comprehensive solution. To bridge this gap, we propose a novel product-centric framework for advertising image design called T-Stars-Poster. It consists of four sequential stages to highlight product foregrounds and taglines while achieving overall image aesthetics: prompt generation, layout generation, background image generation, and graphics rendering. Different expert models are designed and trained for the first three stages: First, a visual language model (VLM) generates background prompts that match the products. Next, a VLM-based layout generation model arranges the placement of product foregrounds, graphic elements (taglines and decorative underlays), and various nongraphic elements (objects from the background prompt). Following this, an SDXL-based model can simultaneously accept prompts, layouts, and foreground controls to generate images. To support T-Stars-Poster, we create two corresponding datasets with over 50,000 labeled images. Extensive experiments and online A/B tests demonstrate that T-Stars-Poster can produce more visually appealing advertising images.
- Abstract(参考訳): 広告画像の作成は、しばしば労働集約的で時間を要するプロセスである。
製品フォアグラウンドイメージやタグライン,ターゲットサイズといった基本的な製品情報を使って,そのようなイメージを自動的に生成できるのでしょうか?
既存の手法は主に問題の一部に焦点を合わせ、包括的な解決策が欠如している。
このギャップを埋めるため、我々はT-Stars-Posterと呼ばれる画像デザインのための新しい製品中心のフレームワークを提案する。
プロンプト生成、レイアウト生成、背景画像生成、グラフィックレンダリングという、全体的なイメージ美学を達成する一方で、製品のフォアグラウンドとタグラインをハイライトする4つのステージで構成されている。
まず、視覚言語モデル(VLM)は、製品にマッチするバックグラウンドプロンプトを生成する。
次に、VLMに基づくレイアウト生成モデルにより、製品フォアグラウンド、グラフィック要素(タグラインおよび装飾アンダーレイ)、および様々な非グラフィック要素(背景プロンプトからのオブジェクト)の配置を配置する。
これに続いて、SDXLベースのモデルでは、プロンプト、レイアウト、および前景制御を同時に受け入れて画像を生成することができる。
T-Stars-Posterをサポートするために、50,000以上のラベル付き画像を持つ2つの対応するデータセットを作成します。
大規模な実験とオンラインA/Bテストにより、T-Stars-Posterはより視覚的に魅力的な広告画像を作成できることを示した。
関連論文リスト
- IGD: Instructional Graphic Design with Multimodal Layer Generation [83.31320209596991]
レイアウト生成に大きく依存する2段階の手法は創造性とインテリジェンスに欠けており、グラフィックデザインは依然として労働集約的である。
自然言語命令のみで編集可能な柔軟性を持つマルチモーダル層を高速に生成するインストラクショナルグラフィックデザイナ(IGD)を提案する。
論文 参考訳(メタデータ) (2025-07-14T04:31:15Z) - CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。
生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。
本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-05T09:06:02Z) - Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。
T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Desigen: A Pipeline for Controllable Design Template Generation [69.51563467689795]
Desigenは、背景画像と背景上のレイアウト要素を生成する自動テンプレート生成パイプラインである。
背景生成過程において,サリエンシ分布を制限し,所望領域の注意重みを低減させる2つの手法を提案する。
実験により、提案したパイプラインは人間の設計に匹敵する高品質なテンプレートを生成することが示された。
論文 参考訳(メタデータ) (2024-03-14T04:32:28Z) - Chaining text-to-image and large language model: A novel approach for generating personalized e-commerce banners [8.508453886143677]
オンライン買い物客向けにパーソナライズされたWebバナーを生成するために,テキスト・ツー・イメージ・モデルを用いることを実証する。
このアプローチの新規性は、ユーザーのインタラクションデータを人間の介入なしに意味のあるプロンプトに変換することである。
提案手法は,ユーザに対して高品質なパーソナライズバナーを作成できることを示す。
論文 参考訳(メタデータ) (2024-02-28T07:56:04Z) - Planning and Rendering: Towards Product Poster Generation with Diffusion Models [21.45855580640437]
P&Rという拡散モデルに基づく新しい製品ポスター生成フレームワークを提案する。
計画段階では、製品やその他のビジュアルコンポーネントのレイアウトを生成するためのPlanNetを提案する。
レンダリング段階では、生成したレイアウトを考慮しつつ、製品の背景を生成するRenderNetを提案する。
提案手法は, PPG30k上での最先端の製品ポスター生成手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-14T11:11:50Z) - Staging E-Commerce Products for Online Advertising using Retrieval
Assisted Image Generation [11.03803158931361]
本稿では,非ステージ製品画像の背景生成にGAN(Generative Adversarial Network)を用いた手法を提案する。
当社のステージングアプローチは,製品イメージからビデオ広告に導かれる商品のアニメーションを,どのように実現できるかを示す。
論文 参考訳(メタデータ) (2023-07-28T06:04:46Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - Unsupervised Domain Adaption with Pixel-level Discriminator for
Image-aware Layout Generation [24.625282719753915]
本稿では、画像コンテンツに条件付けされたGANモデルを用いて、広告ポスターのグラフィックレイアウトを生成することに焦点を当てる。
教師なしのドメイン技術と、PDA-GANと呼ばれる新しいピクセルレベルの識別器(PD)を組み合わせることで、画像の内容に応じてグラフィックレイアウトを生成する。
定量的および定性的な評価はPDA-GANが最先端の性能を達成できることを証明している。
論文 参考訳(メタデータ) (2023-03-25T06:50:22Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Automatic Generation of Product-Image Sequence in E-commerce [46.06263129000091]
MUIsC(Multi-modality Unified Imagesequence)は、ルール違反を学習することで、すべてのカテゴリを同時に検出できる。
2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
論文 参考訳(メタデータ) (2022-06-26T23:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。