論文の概要: Generate E-commerce Product Background by Integrating Category
Commonality and Personalized Style
- arxiv url: http://arxiv.org/abs/2312.13309v1
- Date: Wed, 20 Dec 2023 04:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-22 17:13:38.015090
- Title: Generate E-commerce Product Background by Integrating Category
Commonality and Personalized Style
- Title(参考訳): カテゴリー共通性とパーソナライズスタイルの統合によるeコマース製品背景の生成
- Authors: Haohan Wang, Wei Feng, Yang Lu, Yaoyu Li, Zheng Zhang, Jingjing Lv,
Xin Zhu, Junjie Shen, Zhangang Lin, Lixing Bo, Jingping Shao
- Abstract要約: カテゴリワイズジェネレータは、初めて大規模なバックグラウンド生成を可能にする。
パーソナリティ・ワイズ・ジェネレータは、参照画像から直接このようなパーソナライズされたスタイルを学習するように設計されている。
第1の大規模eコマース製品背景生成データセットBG60kが構築される。
- 参考スコア(独自算出の注目度): 25.266856284339415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state-of-the-art methods for e-commerce product background generation
suffer from the inefficiency of designing product-wise prompts when scaling up
the production, as well as the ineffectiveness of describing fine-grained
styles when customizing personalized backgrounds for some specific brands. To
address these obstacles, we integrate the category commonality and personalized
style into diffusion models. Concretely, we propose a Category-Wise Generator
to enable large-scale background generation for the first time. A unique
identifier in the prompt is assigned to each category, whose attention is
located on the background by a mask-guided cross attention layer to learn the
category-wise style. Furthermore, for products with specific and fine-grained
requirements in layout, elements, etc, a Personality-Wise Generator is devised
to learn such personalized style directly from a reference image to resolve
textual ambiguities, and is trained in a self-supervised manner for more
efficient training data usage. To advance research in this field, the first
large-scale e-commerce product background generation dataset BG60k is
constructed, which covers more than 60k product images from over 2k categories.
Experiments demonstrate that our method could generate high-quality backgrounds
for different categories, and maintain the personalized background style of
reference images. The link to BG60k and codes will be available soon.
- Abstract(参考訳): eコマース製品バックグラウンド生成の最先端の手法は、生産拡大時に製品設計の非効率と、特定のブランドのパーソナライズされた背景をカスタマイズする際の粒度の細かいスタイルの記述の非効率に苦しむ。
これらの障害に対処するため、カテゴリ共通性とパーソナライズされたスタイルを拡散モデルに統合します。
具体的には,大規模なバックグラウンド生成を初めて実現するカテゴリワイズ生成器を提案する。
プロンプト内の一意な識別子は、各カテゴリに割り当てられ、そのカテゴリのスタイルを学ぶために、マスク誘導クロスアテンション層によって背景に注意が向けられる。
さらに、レイアウトや要素等の具体的かつきめ細かい要件を持つ製品に対しては、参照画像から直接パーソナライズされたスタイルを学習してテキストのあいまいさを解消し、より効率的なトレーニングデータ使用のために自己指導的な方法で訓練する。
この分野での研究を進めるために、最初の大規模eコマース製品背景生成データセットであるBG60kを構築し、2k以上のカテゴリから60k以上の製品画像をカバーする。
実験により,異なるカテゴリに対して高品質な背景を生成でき,参照画像のパーソナライズされた背景スタイルを維持できることを示した。
BG60kとコードへのリンクは近く提供される。
関連論文リスト
- Sell It Before You Make It: Revolutionizing E-Commerce with Personalized AI-Generated Items [41.69406276304483]
本稿では,この課題に対処するためにAIGI(AI- generated items)を活用して,e-commercial Product Designのためのパーソナライズされたテキスト・ツー・イメージ生成システムを提案する。
拡散モデルのためのパーソナライズされたグループレベル選好アライメントフレームワーク(PerFusion)を提案し、複数の生成候補画像に対して、ユーザのグループレベルのパーソナライズされた選好をキャプチャする。
AI生成アイテムは、人間によって設計されたアイテムと比較して、クリックスルーレートと変換レートの両方で13%以上の相対的な改善を実現している。
論文 参考訳(メタデータ) (2025-03-28T07:00:33Z) - Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。
まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。
次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文 参考訳(メタデータ) (2025-02-18T17:34:04Z) - PAID: A Framework of Product-Centric Advertising Image Design [31.08944590096747]
我々はPAID(Product-Centric Advertising Image Design)と呼ばれる新しいフレームワークを提案する。
プロダクトフォアグラウンドとタグラインをハイライトする4つのステージで構成され、全体像の美学を達成している。
PAIDフレームワークをサポートするために、50,000以上のラベル付き画像を持つ対応するデータセットを作成します。
論文 参考訳(メタデータ) (2025-01-24T08:21:35Z) - Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - StyleBrush: Style Extraction and Transfer from a Single Image [19.652575295703485]
ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。
本稿では,参照画像からスタイルを正確にキャプチャし,抽出したスタイルを他の入力ビジュアルコンテンツにブラシするStyleBrushを提案する。
論文 参考訳(メタデータ) (2024-08-18T14:27:20Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - Style-Extracting Diffusion Models for Semi-Supervised Histopathology Segmentation [6.479933058008389]
スタイル抽出拡散モデルでは、下流タスクに有用な特徴のない画像を生成する。
本研究では,概念実証として自然画像データセット上での手法の有効性を示す。
患者間でのセグメンテーション結果の改善と性能変動の低減を図り, 得られた画像の付加価値を検証する。
論文 参考訳(メタデータ) (2024-03-21T14:36:59Z) - Desigen: A Pipeline for Controllable Design Template Generation [69.51563467689795]
Desigenは、背景画像と背景上のレイアウト要素を生成する自動テンプレート生成パイプラインである。
背景生成過程において,サリエンシ分布を制限し,所望領域の注意重みを低減させる2つの手法を提案する。
実験により、提案したパイプラインは人間の設計に匹敵する高品質なテンプレートを生成することが示された。
論文 参考訳(メタデータ) (2024-03-14T04:32:28Z) - Planning and Rendering: Towards Product Poster Generation with Diffusion Models [21.45855580640437]
P&Rという拡散モデルに基づく新しい製品ポスター生成フレームワークを提案する。
計画段階では、製品やその他のビジュアルコンポーネントのレイアウトを生成するためのPlanNetを提案する。
レンダリング段階では、生成したレイアウトを考慮しつつ、製品の背景を生成するRenderNetを提案する。
提案手法は, PPG30k上での最先端の製品ポスター生成手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-14T11:11:50Z) - Generative Prompt Model for Weakly Supervised Object Localization [108.79255454746189]
判別対象の少ない部分のローカライズのための生成的プロンプトモデル(GenPromp)を提案する。
トレーニング中、GenPrompはイメージカテゴリラベルを、生成モデルに供給される学習可能なプロンプト埋め込みに変換する。
CUB-200-2011 と ILSVRC の実験では、GenPromp がそれぞれ最高の識別モデルを上回っている。
論文 参考訳(メタデータ) (2023-07-19T05:40:38Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - Unposed: Unsupervised Pose Estimation based Product Image
Recommendations [4.467248776406006]
そこで本研究では,不在者に対する製品のイメージセットをスキャンするためのヒューマン・ポース検出に基づく教師なし手法を提案する。
教師なしのアプローチは、いかなるバイアスにも拘わらず、製品とカテゴリーに基づいて販売者に対して公平なアプローチを示唆している。
200の製品を手動で調査し,その大部分に1回の反復画像や欠落画像があり,その中から3K製品(20K画像)を採取した。
論文 参考訳(メタデータ) (2023-01-19T05:02:55Z) - MyStyle: A Personalized Generative Prior [38.3436972491162]
MyStyleはパーソナライズされたディープジェネレーティブで、個人を数枚のショットで訓練する。
MyStyleは、特定の人の画像を再構成、拡張、編集することができる。
論文 参考訳(メタデータ) (2022-03-31T17:59:19Z) - Industrial Style Transfer with Large-scale Geometric Warping and Content
Preservation [24.387997320024137]
本稿では,産業デザイナーの参考として,新しいビジュアル製品を迅速に作成するための新しいスタイル転送手法を提案する。
本手法は, 原点生成物, 対象物, アートスタイルの画像から, ターゲットの幾何学的形状を模倣するために, 原点形状を歪曲するニューラルワーピング場を生成する。
我々のモデルであるInst(Industrial Style Transfer)は、大規模幾何学的ワープ(LGW)とICTT(inter interest-consistency texture Transfer)から構成される。
論文 参考訳(メタデータ) (2022-03-24T03:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。