論文の概要: Generate E-commerce Product Background by Integrating Category Commonality and Personalized Style
- arxiv url: http://arxiv.org/abs/2312.13309v2
- Date: Fri, 17 Jan 2025 13:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:58:15.864284
- Title: Generate E-commerce Product Background by Integrating Category Commonality and Personalized Style
- Title(参考訳): カテゴリー共通性とパーソナライズされたスタイルの統合によるeコマース製品背景の生成
- Authors: Haohan Wang, Wei Feng, Yaoyu Li, Zheng Zhang, Jingjing Lv, Junjie Shen, Zhangang Lin, Jingping Shao,
- Abstract要約: 本稿では,1つのモデルしか持たない大規模バックグラウンド生成を可能にするカテゴリワイズ生成器を提案する。
レイアウトや要素などの具体的かつきめ細かな要件を持つ製品に対しては、参照画像から直接パーソナライズされたスタイルを学習するようにPersonality-Wise Generatorが考案される。
最初の大規模なeコマース製品背景生成BG60kが構築されており、2k以上のカテゴリから60k以上の製品イメージをカバーしている。
- 参考スコア(独自算出の注目度): 24.1734820238306
- License:
- Abstract: The state-of-the-art methods for e-commerce product background generation suffer from the inefficiency of designing product-wise prompts when scaling up the production, as well as the ineffectiveness of describing fine-grained styles when customizing personalized backgrounds for some specific brands. To address these obstacles, we integrate the category commonality and personalized style into diffusion models. Concretely, we propose a Category-Wise Generator to enable large-scale background generation with only one model for the first time. A unique identifier in the prompt is assigned to each category, whose attention is located on the background by a mask-guided cross attention layer to learn the category-wise style. Furthermore, for products with specific and fine-grained requirements in layout, elements, etc, a Personality-Wise Generator is devised to learn such personalized style directly from a reference image to resolve textual ambiguities, and is trained in a self-supervised manner for more efficient training data usage. To advance research in this field, the first large-scale e-commerce product background generation dataset BG60k is constructed, which covers more than 60k product images from over 2k categories. Experiments demonstrate that our method could generate high-quality backgrounds for different categories, and maintain the personalized background style of reference images. BG60k will be available at \url{https://github.com/Whileherham/BG60k}.
- Abstract(参考訳): 電子商取引製品背景生成の最先端手法は、生産規模を拡大する際の製品ワイドプロンプト設計の非効率性や、特定のブランドのパーソナライズされた背景をカスタマイズする際のきめ細かいスタイル記述の非効率性に悩まされている。
これらの障害に対処するために、カテゴリー共通性とパーソナライズされたスタイルを拡散モデルに統合する。
具体的には,1つのモデルしか持たない大規模バックグラウンド生成を可能にするカテゴリワイズ生成器を提案する。
プロンプト内のユニークな識別子が各カテゴリに割り当てられ、そのカテゴリのスタイルを学ぶために、マスク誘導のクロスアテンション層によって、背景に注意が向けられている。
さらに、レイアウトや要素等の具体的かつきめ細かい要件を持つ製品に対しては、参照画像から直接パーソナライズされたスタイルを学習してテキストのあいまいさを解消し、より効率的なトレーニングデータ使用のために自己指導的な方法で訓練するパーソナライズ・ワイズ・ジェネレータが考案される。
この分野での研究を進めるために、最初の大規模eコマース製品背景生成データセットであるBG60kが構築され、2k以上のカテゴリから60k以上の製品イメージをカバーしている。
実験により,提案手法は異なるカテゴリの高品質な背景を生成でき,参照画像の個人化された背景スタイルを維持できることが示された。
BG60k は \url{https://github.com/Whileherham/BG60k} で入手できる。
関連論文リスト
- Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - Style-Extracting Diffusion Models for Semi-Supervised Histopathology Segmentation [6.479933058008389]
スタイル抽出拡散モデルでは、下流タスクに有用な特徴のない画像を生成する。
本研究では,概念実証として自然画像データセット上での手法の有効性を示す。
患者間でのセグメンテーション結果の改善と性能変動の低減を図り, 得られた画像の付加価値を検証する。
論文 参考訳(メタデータ) (2024-03-21T14:36:59Z) - Desigen: A Pipeline for Controllable Design Template Generation [69.51563467689795]
Desigenは、背景画像と背景上のレイアウト要素を生成する自動テンプレート生成パイプラインである。
背景生成過程において,サリエンシ分布を制限し,所望領域の注意重みを低減させる2つの手法を提案する。
実験により、提案したパイプラインは人間の設計に匹敵する高品質なテンプレートを生成することが示された。
論文 参考訳(メタデータ) (2024-03-14T04:32:28Z) - Planning and Rendering: Towards Product Poster Generation with Diffusion Models [21.45855580640437]
P&Rという拡散モデルに基づく新しい製品ポスター生成フレームワークを提案する。
計画段階では、製品やその他のビジュアルコンポーネントのレイアウトを生成するためのPlanNetを提案する。
レンダリング段階では、生成したレイアウトを考慮しつつ、製品の背景を生成するRenderNetを提案する。
提案手法は, PPG30k上での最先端の製品ポスター生成手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-14T11:11:50Z) - Generative Prompt Model for Weakly Supervised Object Localization [108.79255454746189]
判別対象の少ない部分のローカライズのための生成的プロンプトモデル(GenPromp)を提案する。
トレーニング中、GenPrompはイメージカテゴリラベルを、生成モデルに供給される学習可能なプロンプト埋め込みに変換する。
CUB-200-2011 と ILSVRC の実験では、GenPromp がそれぞれ最高の識別モデルを上回っている。
論文 参考訳(メタデータ) (2023-07-19T05:40:38Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - Unposed: Unsupervised Pose Estimation based Product Image
Recommendations [4.467248776406006]
そこで本研究では,不在者に対する製品のイメージセットをスキャンするためのヒューマン・ポース検出に基づく教師なし手法を提案する。
教師なしのアプローチは、いかなるバイアスにも拘わらず、製品とカテゴリーに基づいて販売者に対して公平なアプローチを示唆している。
200の製品を手動で調査し,その大部分に1回の反復画像や欠落画像があり,その中から3K製品(20K画像)を採取した。
論文 参考訳(メタデータ) (2023-01-19T05:02:55Z) - MyStyle: A Personalized Generative Prior [38.3436972491162]
MyStyleはパーソナライズされたディープジェネレーティブで、個人を数枚のショットで訓練する。
MyStyleは、特定の人の画像を再構成、拡張、編集することができる。
論文 参考訳(メタデータ) (2022-03-31T17:59:19Z) - Industrial Style Transfer with Large-scale Geometric Warping and Content
Preservation [24.387997320024137]
本稿では,産業デザイナーの参考として,新しいビジュアル製品を迅速に作成するための新しいスタイル転送手法を提案する。
本手法は, 原点生成物, 対象物, アートスタイルの画像から, ターゲットの幾何学的形状を模倣するために, 原点形状を歪曲するニューラルワーピング場を生成する。
我々のモデルであるInst(Industrial Style Transfer)は、大規模幾何学的ワープ(LGW)とICTT(inter interest-consistency texture Transfer)から構成される。
論文 参考訳(メタデータ) (2022-03-24T03:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。