論文の概要: Extending CLIP for Category-to-image Retrieval in E-commerce
- arxiv url: http://arxiv.org/abs/2112.11294v1
- Date: Tue, 21 Dec 2021 15:33:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 19:13:06.955779
- Title: Extending CLIP for Category-to-image Retrieval in E-commerce
- Title(参考訳): Eコマースにおけるカテゴリ・ツー・イメージ検索のためのCLIPの拡張
- Authors: Mariya Hendriksen, Maurits Bleeker, Svitlana Vakulenko, Nanne van
Noord, Ernst Kuiper, and Maarten de Rijke
- Abstract要約: Eコマースは、実際はほとんど活用されていないリッチなマルチモーダルデータを提供する。
実際には、テキストと与えられたカテゴリの視覚的表現の間には、しばしばミスマッチがある。
電子商取引におけるカテゴリ・ツー・イメージ検索の課題を紹介し,その課題のモデルであるCLIP-ITAを提案する。
- 参考スコア(独自算出の注目度): 36.386210802938656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: E-commerce provides rich multimodal data that is barely leveraged in
practice. One aspect of this data is a category tree that is being used in
search and recommendation. However, in practice, during a user's session there
is often a mismatch between a textual and a visual representation of a given
category. Motivated by the problem, we introduce the task of category-to-image
retrieval in e-commerce and propose a model for the task, CLIP-ITA. The model
leverages information from multiple modalities (textual, visual, and attribute
modality) to create product representations. We explore how adding information
from multiple modalities (textual, visual, and attribute modality) impacts the
model's performance. In particular, we observe that CLIP-ITA significantly
outperforms a comparable model that leverages only the visual modality and a
comparable model that leverages the visual and attribute modality.
- Abstract(参考訳): Eコマースは、実際はほとんど活用されていないリッチなマルチモーダルデータを提供する。
このデータの1つの側面は、検索とレコメンデーションで使われているカテゴリツリーである。
しかし、実際には、ユーザのセッション中に、あるカテゴリのテキスト表現と視覚的表現との間には、しばしばミスマッチがある。
本稿では,eコマースにおけるカテゴリ・ツー・イメージ検索の課題を紹介し,その課題であるCLIP-ITAのモデルを提案する。
このモデルは、複数のモダリティ(テキスト、視覚、属性のモダリティ)の情報を活用して製品表現を作成する。
複数のモーダル(テキスト,視覚,属性のモダリティ)から情報を追加することが,モデルの性能に与える影響について検討する。
特に、CLIP-ITAは、視覚的モダリティのみを活用する類似モデルと、視覚的モダリティと属性的モダリティのみを活用する類似モデルとを著しく上回ります。
関連論文リスト
- A Multi-Granularity Matching Attention Network for Query Intent
Classification in E-commerce Retrieval [9.034096715927731]
本稿では,クエリインテント分類のためのMMAN(Multi-granularity Matching Attention Network)を提案する。
MMANには、セルフマッチングモジュール、シャルレベルマッチングモジュール、セマンティックレベルマッチングモジュールの3つのモジュールが含まれている。
我々は大規模なオフラインおよびオンラインA/B実験を行い、MMANが強いベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-28T10:25:17Z) - Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval [12.588713044749177]
電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。
電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
論文 参考訳(メタデータ) (2023-02-10T07:24:23Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - PAM: Understanding Product Images in Cross Product Category Attribute
Extraction [40.332066960433245]
この研究は、属性抽出に様々なモダリティを完全に活用するより包括的なフレームワークを提案する。
視覚的質問応答における最近の研究に触発されて,製品テキスト,光学的文字認識(OCR)トークン,および製品画像から検出された視覚オブジェクトの表現を融合するために,トランスフォーマーに基づくシーケンスモデルを用いている。
フレームワークはさらに拡張されており、複数の製品カテゴリにまたがる属性値を単一のモデルで抽出することができる。
論文 参考訳(メタデータ) (2021-06-08T18:30:17Z) - Large Scale Multimodal Classification Using an Ensemble of Transformer
Models and Co-Attention [2.842794675894731]
本稿では,SIGIR eCom Rakuten Data Challengeの方法論と結果について述べる。
我々は、事前訓練された言語と画像埋め込みを用いて、画像とテキストの関係をモデル化するために、二重注意法を用いる。
論文 参考訳(メタデータ) (2020-11-23T21:22:54Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。