論文の概要: Transformer-empowered Multi-modal Item Embedding for Enhanced Image
Search in E-Commerce
- arxiv url: http://arxiv.org/abs/2311.17954v2
- Date: Thu, 8 Feb 2024 15:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 19:01:48.931258
- Title: Transformer-empowered Multi-modal Item Embedding for Enhanced Image
Search in E-Commerce
- Title(参考訳): eコマースにおける画像検索強化のためのトランスフォーマティブマルチモーダルアイテム埋め込み
- Authors: Chang Liu, Peng Hou, Anxiang Zeng, Han Yu
- Abstract要約: マルチモーダルアイテム埋め込みモデル(MIEM)は、製品に関するテキスト情報と複数の画像の両方を利用して、意味のある製品機能を構築することができる。
MIEMはShopeeイメージ検索プラットフォームの一部となっている。
- 参考スコア(独自算出の注目度): 20.921870288665627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decade, significant advances have been made in the field of
image search for e-commerce applications. Traditional image-to-image retrieval
models, which focus solely on image details such as texture, tend to overlook
useful semantic information contained within the images. As a result, the
retrieved products might possess similar image details, but fail to fulfil the
user's search goals. Moreover, the use of image-to-image retrieval models for
products containing multiple images results in significant online product
feature storage overhead and complex mapping implementations. In this paper, we
report the design and deployment of the proposed Multi-modal Item Embedding
Model (MIEM) to address these limitations. It is capable of utilizing both
textual information and multiple images about a product to construct meaningful
product features. By leveraging semantic information from images, MIEM
effectively supplements the image search process, improving the overall
accuracy of retrieval results. MIEM has become an integral part of the Shopee
image search platform. Since its deployment in March 2023, it has achieved a
remarkable 9.90% increase in terms of clicks per user and a 4.23% boost in
terms of orders per user for the image search feature on the Shopee e-commerce
platform.
- Abstract(参考訳): 過去10年間で、電子商取引アプリケーションの画像検索の分野で大きな進歩があった。
テクスチャなどの画像の詳細のみに焦点を当てた従来の画像から画像への検索モデルは、画像に含まれる有用な意味情報を見落としてしまう傾向にある。
その結果、検索された製品は類似した画像の詳細を持っているかもしれないが、ユーザーの検索目標を満たせていない。
さらに、複数の画像を含む製品に対する画像から画像への検索モデルの使用により、オンライン製品の特徴的ストレージオーバーヘッドと複雑なマッピング実装が大幅に向上する。
本稿では,これらの制約に対処するためのマルチモーダル要素埋め込みモデル(MIEM)の設計と展開について報告する。
製品に関するテキスト情報と複数の画像の両方を利用して、有意義な製品機能を構築することができる。
画像からの意味情報を活用することで、MIEMは画像検索プロセスを効果的に補完し、検索結果の全体的な精度を向上させる。
MIEMはShopeeイメージ検索プラットフォームの一部となっている。
2023年3月の配備以来、ユーザ毎のクリック数で9.90%増加し、Shopee eコマースプラットフォームのイメージ検索機能では、ユーザ毎の注文数で4.23%増加した。
関連論文リスト
- VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Mutual Query Network for Multi-Modal Product Image Segmentation [13.192334066413837]
本稿では,視覚的・言語的モダリティの両面から商品を分割する相互クエリネットワークを提案する。
この分野での研究を促進するために,マルチモーダル製品データセット(MMPS)を構築した。
提案手法は,MMPSの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2023-06-26T03:18:38Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval [12.588713044749177]
電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。
電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
論文 参考訳(メタデータ) (2023-02-10T07:24:23Z) - Unposed: Unsupervised Pose Estimation based Product Image
Recommendations [4.467248776406006]
そこで本研究では,不在者に対する製品のイメージセットをスキャンするためのヒューマン・ポース検出に基づく教師なし手法を提案する。
教師なしのアプローチは、いかなるバイアスにも拘わらず、製品とカテゴリーに基づいて販売者に対して公平なアプローチを示唆している。
200の製品を手動で調査し,その大部分に1回の反復画像や欠落画像があり,その中から3K製品(20K画像)を採取した。
論文 参考訳(メタデータ) (2023-01-19T05:02:55Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Automatic Generation of Product-Image Sequence in E-commerce [46.06263129000091]
MUIsC(Multi-modality Unified Imagesequence)は、ルール違反を学習することで、すべてのカテゴリを同時に検出できる。
2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
論文 参考訳(メタデータ) (2022-06-26T23:38:42Z) - A Study on the Efficient Product Search Service for the Damaged Image
Information [12.310316230437005]
本研究の目的は、損傷した画像に対する画像前処理と画像印字アルゴリズムを用いて、画像復元による製品検索を支援することである。
本システムは,情報をカテゴリー別に効率よく表示する利点があり,登録情報の効率的な販売が可能となる。
論文 参考訳(メタデータ) (2021-11-14T13:58:48Z) - An Automatic Image Content Retrieval Method for better Mobile Device
Display User Experiences [91.3755431537592]
モバイル端末向け画像コンテンツ検索と分類のための新しいモバイルアプリケーションを提案する。
このアプリケーションは何千もの写真で実行され、モバイルディスプレイでより良いユーザー視覚体験を実現するための励ましの成果を見せた。
論文 参考訳(メタデータ) (2021-08-26T23:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。