論文の概要: Cross-Domain Product Representation Learning for Rich-Content E-Commerce
- arxiv url: http://arxiv.org/abs/2308.05550v1
- Date: Thu, 10 Aug 2023 13:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 12:29:18.200351
- Title: Cross-Domain Product Representation Learning for Rich-Content E-Commerce
- Title(参考訳): リッチコンテンツEコマースのためのクロスドメイン製品表現学習
- Authors: Xuehan Bai, Yan Li, Yanhua Cheng, Wenjie Yang, Quan Chen, Han Li
- Abstract要約: 本稿では,ROPEと呼ばれる大規模cRoss-dOmain製品認識データセットを提案する。
ROPEは幅広い製品カテゴリーをカバーし、数百万のショートビデオとライブストリームに対応する180,000以上の製品を含んでいる。
プロダクトページ、ショートビデオ、ライブストリームを同時にカバーする最初のデータセットであり、異なるメディアドメイン間で統一された製品表現を確立する基盤を提供する。
- 参考スコア(独自算出の注目度): 16.418118040661646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of short video and live-streaming platforms has
revolutionized how consumers engage in online shopping. Instead of browsing
product pages, consumers are now turning to rich-content e-commerce, where they
can purchase products through dynamic and interactive media like short videos
and live streams. This emerging form of online shopping has introduced
technical challenges, as products may be presented differently across various
media domains. Therefore, a unified product representation is essential for
achieving cross-domain product recognition to ensure an optimal user search
experience and effective product recommendations. Despite the urgent industrial
need for a unified cross-domain product representation, previous studies have
predominantly focused only on product pages without taking into account short
videos and live streams. To fill the gap in the rich-content e-commerce area,
in this paper, we introduce a large-scale cRoss-dOmain Product Ecognition
dataset, called ROPE. ROPE covers a wide range of product categories and
contains over 180,000 products, corresponding to millions of short videos and
live streams. It is the first dataset to cover product pages, short videos, and
live streams simultaneously, providing the basis for establishing a unified
product representation across different media domains. Furthermore, we propose
a Cross-dOmain Product rEpresentation framework, namely COPE, which unifies
product representations in different domains through multimodal learning
including text and vision. Extensive experiments on downstream tasks
demonstrate the effectiveness of COPE in learning a joint feature space for all
product domains.
- Abstract(参考訳): ショートビデオやライブストリーミングプラットフォームの普及は、消費者のオンラインショッピングへの取り組みに革命をもたらした。
消費者は商品ページを閲覧する代わりに、リッチコンテンツのeコマースに目を向け、短いビデオやライブストリームのようなダイナミックでインタラクティブなメディアを通じて商品を購入することができる。
このオンラインショッピングの新しい形態は、様々なメディアドメインで異なる商品が提示される可能性があるため、技術的な課題をもたらしている。
したがって、統一された製品表現は、最適なユーザ検索体験と効果的な製品推奨を確保するために、クロスドメイン製品認識を達成するために不可欠である。
クロスドメインな製品表現の緊急な産業的ニーズにもかかわらず、以前の研究では、ショートビデオやライブストリームを考慮せずに、製品ページのみに重点を置いてきた。
本稿では,リッチコンテンツeコマースのギャップを埋めるために,ROPEと呼ばれる大規模cRoss-dOmain製品認識データセットを提案する。
ROPEは幅広い製品カテゴリーをカバーし、数百万のショートビデオとライブストリームに対応する180,000以上の製品を含んでいる。
プロダクトページ、ショートビデオ、ライブストリームを同時にカバーする最初のデータセットであり、異なるメディアドメイン間で統一された製品表現を確立する基盤を提供する。
さらに,テキストや視覚を含むマルチモーダル学習を通じて,異なる領域における製品表現を統一するクロスdOmain Product rEpresentation framework,すなわちCOPEを提案する。
下流タスクに関する大規模な実験は、すべての製品ドメインで共同機能空間を学習する際のCOPEの有効性を示す。
関連論文リスト
- ASR-enhanced Multimodal Representation Learning for Cross-Domain Product Retrieval [28.13183873658186]
電子商取引はますますマルチメディア化され、画像やショートビデオ、ライブストリームのプロモーションなど、幅広い領域で商品が展示されている。
広義のシナリオでは、製品内変異が大きく、製品間類似度が高いため、視覚のみの表現は不十分である。
ASRによるマルチモーダル製品表現学習(AMPere)を提案する。
論文 参考訳(メタデータ) (2024-08-06T06:24:10Z) - Spatiotemporal Graph Guided Multi-modal Network for Livestreaming Product Retrieval [32.478352606125306]
そこで本研究では,営業担当者の音声コンテンツを活用したテキスト誘導型アテンション機構を提案する。
長距離時間グラフネットワークは、インスタンスレベルの相互作用とフレームレベルのマッチングの両方を達成するように設計されている。
提案するSGMNモデルの優れた性能を実証し,最先端の手法をかなり上回る性能を示した。
論文 参考訳(メタデータ) (2024-07-23T07:36:54Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - Cross-view Semantic Alignment for Livestreaming Product Recognition [24.38606354376169]
LPR4Mは34のカテゴリをカバーする大規模マルチモーダルデータセットである。
LPR4Mは様々なビデオとノイズモードのペアを含み、長い尾の分布を示す。
クロスビューパッチ間のセマンティックなミスアライメントをペナルティ化するために、新しいパッチ特徴再構成損失を提案する。
論文 参考訳(メタデータ) (2023-08-09T12:23:41Z) - Multi-queue Momentum Contrast for Microvideo-Product Retrieval [57.527227171945796]
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。
双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。
マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
論文 参考訳(メタデータ) (2022-12-22T03:47:14Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z) - ItemSage: Learning Product Embeddings for Shopping Recommendations at
Pinterest [60.841761065439414]
Pinterestでは、ItemSageと呼ばれるプロダクトの埋め込みセットを構築して、すべてのショッピングユースケースに適切なレコメンデーションを提供しています。
このアプローチによって、エンゲージメントとコンバージョンメトリクスが大幅に改善され、インフラストラクチャとメンテナンスコストの両方が削減された。
論文 参考訳(メタデータ) (2022-05-24T02:28:58Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z) - Fashion Focus: Multi-modal Retrieval System for Video Commodity
Localization in E-commerce [18.651201334846352]
ファッションフォーカス(Fashion Focus)と呼ばれるマルチモーダル検索システムの革新的実証について述べる。
オンラインビデオのプロダクトイメージを、焦点として正確にローカライズすることができる。
本システムでは,ビデオコンテンツ構造化とマルチモーダル検索という2つの手法を用いて,高精度なビデオ・ツー・ショップマッチングを実現する。
論文 参考訳(メタデータ) (2021-02-09T09:45:04Z) - Poet: Product-oriented Video Captioner for E-commerce [124.9936946822493]
電子商取引では、製品プロモーションにユーザ生成ビデオが増えている。このビデオで表されるユーザ優先の製品特性を物語るビデオ記述をどうやって生成するかは、プロモーションを成功させる上で不可欠である。
本稿では,製品指向の動画キャプタフレームワークであるPoetを提案する。
Poetは、生成品質、製品面のキャプチャ、語彙の多様性に関する従来の手法よりも一貫した性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2020-08-16T10:53:46Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。