論文の概要: Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval
- arxiv url: http://arxiv.org/abs/2302.05093v1
- Date: Fri, 10 Feb 2023 07:24:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 16:19:41.886690
- Title: Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval
- Title(参考訳): 同一商品検索のための統一視覚言語表現モデル
- Authors: Ben Chen, Linbo Jin, Xinxin Wang, Dehong Gao, Wen Jiang, Wei Ning
- Abstract要約: 電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。
電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
- 参考スコア(独自算出の注目度): 12.588713044749177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Same-style products retrieval plays an important role in e-commerce
platforms, aiming to identify the same products which may have different text
descriptions or images. It can be used for similar products retrieval from
different suppliers or duplicate products detection of one supplier. Common
methods use the image as the detected object, but they only consider the visual
features and overlook the attribute information contained in the textual
descriptions, and perform weakly for products in image less important
industries like machinery, hardware tools and electronic component, even if an
additional text matching module is added. In this paper, we propose a unified
vision-language modeling method for e-commerce same-style products retrieval,
which is designed to represent one product with its textual descriptions and
visual contents. It contains one sampling skill to collect positive pairs from
user click log with category and relevance constrained, and a novel contrastive
loss unit to model the image, text, and image+text representations into one
joint embedding space. It is capable of cross-modal product-to-product
retrieval, as well as style transfer and user-interactive search. Offline
evaluations on annotated data demonstrate its superior retrieval performance,
and online testings show it can attract more clicks and conversions. Moreover,
this model has already been deployed online for similar products retrieval in
alibaba.com, the largest B2B e-commerce platform in the world.
- Abstract(参考訳): 同じスタイルの製品検索は、Eコマースプラットフォームにおいて重要な役割を担い、異なるテキスト記述や画像を持つものと同じ製品を特定することを目的としている。
異なるサプライヤーからの類似商品の検索や、1つのサプライヤーの重複商品の検出に使用できる。
一般的な手法では検出されたオブジェクトとして画像を使用するが、視覚的特徴のみを考慮し、テキスト記述に含まれる属性情報を見落とし、追加のテキストマッチングモジュールが追加されても、機械、ハードウェアツール、電子部品といった重要でない分野の製品に対して弱い性能を発揮する。
本稿では,電子商取引における同型商品検索のための統一視覚言語モデリング手法を提案する。
カテゴリと関連性制約のあるユーザクリックログから正のペアを収集するサンプリングスキルと、画像、テキスト、画像+テキスト表現を1つのジョイント埋め込み空間にモデル化する新しいコントラスト損失ユニットとを含む。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
注釈付きデータのオフライン評価は、検索性能が優れており、オンラインテストでは、より多くのクリックや変換を引き付けることができる。
さらに、このモデルは、世界最大のb2b電子商取引プラットフォームであるalibaba.comで同様の商品検索のために既にオンラインに展開されている。
関連論文リスト
- Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation [47.70824723223262]
マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。
実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-02-21T07:38:29Z) - Transformer-empowered Multi-modal Item Embedding for Enhanced Image
Search in E-Commerce [20.921870288665627]
マルチモーダルアイテム埋め込みモデル(MIEM)は、製品に関するテキスト情報と複数の画像の両方を利用して、意味のある製品機能を構築することができる。
MIEMはShopeeイメージ検索プラットフォームの一部となっている。
論文 参考訳(メタデータ) (2023-11-29T08:09:50Z) - Mutual Query Network for Multi-Modal Product Image Segmentation [13.192334066413837]
本稿では,視覚的・言語的モダリティの両面から商品を分割する相互クエリネットワークを提案する。
この分野での研究を促進するために,マルチモーダル製品データセット(MMPS)を構築した。
提案手法は,MMPSの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2023-06-26T03:18:38Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z) - Automatic Generation of Product-Image Sequence in E-commerce [46.06263129000091]
MUIsC(Multi-modality Unified Imagesequence)は、ルール違反を学習することで、すべてのカテゴリを同時に検出できる。
2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
論文 参考訳(メタデータ) (2022-06-26T23:38:42Z) - Extending CLIP for Category-to-image Retrieval in E-commerce [36.386210802938656]
Eコマースは、実際はほとんど活用されていないリッチなマルチモーダルデータを提供する。
実際には、テキストと与えられたカテゴリの視覚的表現の間には、しばしばミスマッチがある。
電子商取引におけるカテゴリ・ツー・イメージ検索の課題を紹介し,その課題のモデルであるCLIP-ITAを提案する。
論文 参考訳(メタデータ) (2021-12-21T15:33:23Z) - PAM: Understanding Product Images in Cross Product Category Attribute
Extraction [40.332066960433245]
この研究は、属性抽出に様々なモダリティを完全に活用するより包括的なフレームワークを提案する。
視覚的質問応答における最近の研究に触発されて,製品テキスト,光学的文字認識(OCR)トークン,および製品画像から検出された視覚オブジェクトの表現を融合するために,トランスフォーマーに基づくシーケンスモデルを用いている。
フレームワークはさらに拡張されており、複数の製品カテゴリにまたがる属性値を単一のモデルで抽出することができる。
論文 参考訳(メタデータ) (2021-06-08T18:30:17Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。