論文の概要: ProductWebGen: Benchmarking Multimodal Product Webpage Generation
- arxiv url: http://arxiv.org/abs/2606.01022v1
- Date: Sun, 31 May 2026 05:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.081056
- Title: ProductWebGen: Benchmarking Multimodal Product Webpage Generation
- Title(参考訳): ProductWebGen: マルチモーダルな製品Webページ生成のベンチマーク
- Authors: Zhihong Liu, Siqi Kou, Zheng Li, Ye Ma, Quan Chen, Peng Jiang, Kai Yu, Zhijie Deng,
- Abstract要約: 本稿ではProductWebGenを紹介し,高度なマルチモーダル生成モデルの製品Webページ生成能力のベンチマークを行う。
ProductWebGenは、13の製品カテゴリをカバーする500のテストサンプルで、ソースイメージ、ビジュアルコンテンツインストラクション、Webページインストラクションで構成されています。
課題は、ソース画像と指示に従って、複数の一貫性のある画像を含む製品ショーWebページを生成することである。
- 参考スコア(独自算出の注目度): 38.39574522096441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crafting a product display webpage from a source product image, along with layout and visual content instructions, holds significant practical value for domains such as marketing, advertising, and E-commerce. Intuitively, this task demands strict visual consistency across product displays and high-fidelity instruction following to jointly generate renderable HTML code. These requirements on controllability and instruction-following are closely aligned with the core features of advanced multimodal generative models, such as image editing models and unified models. To this end, this paper introduces ProductWebGen to systematically benchmark the product webpage generation capacities of these models. We organize ProductWebGen with 500 test samples covering 13 product categories; each sample consists of a source image, a visual content instruction, and a webpage instruction. The task is to generate a product showcase webpage including multiple consistent images in accordance with the source image and instructions. Given the mixed-modality input-output nature of the task, we design and systematically compare two workflows for evaluation -- one uses large language models and image editing models to separately generate HTML code and images (editing-based), while the other relies on a single UM to generate both, with image generation conditioned on the preceding multimodal context (UM-based). Empirical results show that editing-based approaches achieve leading results in webpage instruction following and content appeal, while UM-based ones may display more advantages in fulfilling visual content instructions. We also construct a supervised fine-tuning dataset, ProductWebGen-1k, with 1,000 groups of real product images and LLM-generated HTML code. We verify its effectiveness on the open-source UM BAGEL. The data and code are available at https://github.com/SJTU-DENG-Lab/ProductWebGen.
- Abstract(参考訳): 製品表示のWebページをソース製品イメージから作成し、レイアウトやビジュアルなコンテンツ指示とともに、マーケティング、広告、Eコマースといった分野にとって重要な実践的価値を持つ。
直感的には、このタスクは製品ディスプレイ全体にわたる厳密な視覚的一貫性と、レンダリング可能なHTMLコードを共同で生成するための高忠実度命令を要求する。
制御性と命令追従性に関するこれらの要件は、画像編集モデルや統一モデルなど、高度なマルチモーダル生成モデルのコア機能と密接に一致している。
本稿では,これらのモデルの製品Webページ生成能力を体系的にベンチマークするProductWebGenを紹介する。
ProductWebGenは、13の製品カテゴリをカバーする500のテストサンプルで、ソースイメージ、ビジュアルコンテンツインストラクション、Webページインストラクションで構成されています。
課題は、ソース画像と指示に従って、複数の一貫性のある画像を含む製品ショーWebページを生成することである。
1つは、大きな言語モデルと画像編集モデルを使用して、HTMLコードと画像(編集ベース)を別々に生成し、もう1つは、前のマルチモーダルコンテキスト(UMベース)で画像を生成するために単一のUMに依存している。
実験結果から,ウェブページのインストラクションの追従やコンテンツアピールにおいて,編集によるアプローチが先行することを示す一方,UMベースのアプローチは視覚的コンテンツインストラクションの達成において,より有利な結果をもたらす可能性が示唆された。
また、1000の製品イメージとLLM生成HTMLコードからなる教師付き微調整データセットProductWebGen-1kを構築した。
オープンソースUM BAGELの有効性を検証する。
データとコードはhttps://github.com/SJTU-DENG-Lab/ProductWebGenで入手できる。
関連論文リスト
- DuoGen: Towards General Purpose Interleaved Multimodal Generation [65.13479486098419]
DuoGenは汎用的なインターリーブ生成フレームワークで、データキュレーション、アーキテクチャ設計、評価に対処する。
我々は、キュレートされた生のWebサイトから書き直されたマルチモーダルな会話を組み合わせることで、大規模で高品質な命令チューニングデータセットを構築する。
2段階の切り離し戦略はまずMLLMをインストラクションチューニングし、次にインターリーブされた画像テキストシーケンスを使用してDiTをアライメントする。
論文 参考訳(メタデータ) (2026-01-31T04:35:15Z) - CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。
生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。
本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-05T09:06:02Z) - T-Stars-Poster: A Framework for Product-Centric Advertising Image Design [29.692534186696452]
本稿では,T-Stars-Posterという,広告画像デザインのための新しい製品中心のフレームワークを提案する。
プロダクトフォアグラウンドとタグラインをハイライトする4つのステージで構成され、全体像の美学を達成している。
T-Stars-Posterをサポートするために、50,000以上のラベル付き画像を持つ2つの対応するデータセットを作成します。
論文 参考訳(メタデータ) (2025-01-24T08:21:35Z) - Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。
現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。
命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:59:46Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Automatic Generation of Product-Image Sequence in E-commerce [46.06263129000091]
MUIsC(Multi-modality Unified Imagesequence)は、ルール違反を学習することで、すべてのカテゴリを同時に検出できる。
2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
論文 参考訳(メタデータ) (2022-06-26T23:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。