論文の概要: Automatic Generation of Product-Image Sequence in E-commerce
- arxiv url: http://arxiv.org/abs/2206.12994v1
- Date: Sun, 26 Jun 2022 23:38:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 04:07:46.578007
- Title: Automatic Generation of Product-Image Sequence in E-commerce
- Title(参考訳): 電子商取引における商品画像の自動生成
- Authors: Xiaochuan Fan, Chi Zhang, Yong Yang, Yue Shang, Xueying Zhang, Zhen
He, Yun Xiao, Bo Long, Lingfei Wu
- Abstract要約: MUIsC(Multi-modality Unified Imagesequence)は、ルール違反を学習することで、すべてのカテゴリを同時に検出できる。
2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
- 参考スコア(独自算出の注目度): 46.06263129000091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Product images are essential for providing desirable user experience in an
e-commerce platform. For a platform with billions of products, it is extremely
time-costly and labor-expensive to manually pick and organize qualified images.
Furthermore, there are the numerous and complicated image rules that a product
image needs to comply in order to be generated/selected. To address these
challenges, in this paper, we present a new learning framework in order to
achieve Automatic Generation of Product-Image Sequence (AGPIS) in e-commerce.
To this end, we propose a Multi-modality Unified Image-sequence Classifier
(MUIsC), which is able to simultaneously detect all categories of rule
violations through learning. MUIsC leverages textual review feedback as the
additional training target and utilizes product textual description to provide
extra semantic information. Based on offline evaluations, we show that the
proposed MUIsC significantly outperforms various baselines. Besides MUIsC, we
also integrate some other important modules in the proposed framework, such as
primary image selection, noncompliant content detection, and image
deduplication. With all these modules, our framework works effectively and
efficiently in JD.com recommendation platform. By Dec 2021, our AGPIS framework
has generated high-standard images for about 1.5 million products and achieves
13.6% in reject rate.
- Abstract(参考訳): 製品イメージは、eコマースプラットフォームで望ましいユーザーエクスペリエンスを提供するのに不可欠です。
何十億もの製品があるプラットフォームでは、手動で資格のある画像を選んで整理するのに非常に時間と労力がかかる。
さらに、生成/選択のために製品イメージが従わなければならない、複雑で複雑な画像ルールがあります。
本稿では,電子商取引におけるAGPIS(Automatic Generation of Product- Image Sequence)を実現するための新たな学習フレームワークを提案する。
そこで本研究では,学習によるルール違反のすべてのカテゴリを同時に検出できるマルチモダリティ統一画像系列分類器(muisc)を提案する。
MUIsCは、テキストレビューフィードバックを追加のトレーニングターゲットとして活用し、製品テキスト記述を使用して、追加のセマンティック情報を提供する。
オフライン評価に基づいて,提案したMUIsCが,様々なベースラインを著しく上回ることを示す。
muisc 以外にも,プライマリイメージ選択,非準拠コンテント検出,イメージ重複など,提案フレームワークの他の重要なモジュールも統合しています。
これらすべてのモジュールで、我々のフレームワークはJD.comレコメンデーションプラットフォームで効果的に効率的に機能します。
2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
関連論文リスト
- Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Transformer-empowered Multi-modal Item Embedding for Enhanced Image
Search in E-Commerce [20.921870288665627]
マルチモーダルアイテム埋め込みモデル(MIEM)は、製品に関するテキスト情報と複数の画像の両方を利用して、意味のある製品機能を構築することができる。
MIEMはShopeeイメージ検索プラットフォームの一部となっている。
論文 参考訳(メタデータ) (2023-11-29T08:09:50Z) - Mutual Query Network for Multi-Modal Product Image Segmentation [13.192334066413837]
本稿では,視覚的・言語的モダリティの両面から商品を分割する相互クエリネットワークを提案する。
この分野での研究を促進するために,マルチモーダル製品データセット(MMPS)を構築した。
提案手法は,MMPSの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2023-06-26T03:18:38Z) - Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval [12.588713044749177]
電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。
電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
論文 参考訳(メタデータ) (2023-02-10T07:24:23Z) - VISTA: Vision Transformer enhanced by U-Net and Image Colorfulness Frame
Filtration for Automatic Retail Checkout [0.7250756081498245]
ビデオシーケンスから個々のフレームをセグメント化し分類することを提案する。
セグメンテーション法は、統一された単一製品アイテムと手作業のセグメンテーションと、エントロピーマスキングからなる。
我々のベストシステムは、AIシティチャレンジ2022トラック4で3位を獲得し、F1スコアは0.4545である。
論文 参考訳(メタデータ) (2022-04-23T08:54:28Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - eProduct: A Million-Scale Visual Search Benchmark to Address Product
Recognition Challenges [8.204924070199866]
eProductは、実世界のさまざまなビジュアル検索ソリューションのトレーニングと評価のためのベンチマークデータセットである。
本稿では,eProductをトレーニングセットと評価セットとして提示し,トレーニングセットには1.3M+のタイトル付き画像と階層的カテゴリラベルが記載されている。
本稿では,eProductの構成手順,多様性の分析,トレーニングしたベースラインモデルの性能について紹介する。
論文 参考訳(メタデータ) (2021-07-13T05:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。