Fugu-MT 論文翻訳(概要): Extending CLIP for Category-to-image Retrieval in E-commerce

論文の概要: Extending CLIP for Category-to-image Retrieval in E-commerce

arxiv url: http://arxiv.org/abs/2112.11294v1
Date: Tue, 21 Dec 2021 15:33:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-22 19:13:06.955779
Title: Extending CLIP for Category-to-image Retrieval in E-commerce
Title（参考訳）: Eコマースにおけるカテゴリ・ツー・イメージ検索のためのCLIPの拡張
Authors: Mariya Hendriksen, Maurits Bleeker, Svitlana Vakulenko, Nanne van Noord, Ernst Kuiper, and Maarten de Rijke
Abstract要約: Eコマースは、実際はほとんど活用されていないリッチなマルチモーダルデータを提供する。実際には、テキストと与えられたカテゴリの視覚的表現の間には、しばしばミスマッチがある。電子商取引におけるカテゴリ・ツー・イメージ検索の課題を紹介し,その課題のモデルであるCLIP-ITAを提案する。
参考スコア（独自算出の注目度）: 36.386210802938656
License: http://creativecommons.org/licenses/by/4.0/
Abstract: E-commerce provides rich multimodal data that is barely leveraged in practice. One aspect of this data is a category tree that is being used in search and recommendation. However, in practice, during a user's session there is often a mismatch between a textual and a visual representation of a given category. Motivated by the problem, we introduce the task of category-to-image retrieval in e-commerce and propose a model for the task, CLIP-ITA. The model leverages information from multiple modalities (textual, visual, and attribute modality) to create product representations. We explore how adding information from multiple modalities (textual, visual, and attribute modality) impacts the model's performance. In particular, we observe that CLIP-ITA significantly outperforms a comparable model that leverages only the visual modality and a comparable model that leverages the visual and attribute modality.
Abstract（参考訳）: Eコマースは、実際はほとんど活用されていないリッチなマルチモーダルデータを提供する。このデータの1つの側面は、検索とレコメンデーションで使われているカテゴリツリーである。しかし、実際には、ユーザのセッション中に、あるカテゴリのテキスト表現と視覚的表現との間には、しばしばミスマッチがある。本稿では,eコマースにおけるカテゴリ・ツー・イメージ検索の課題を紹介し,その課題であるCLIP-ITAのモデルを提案する。このモデルは、複数のモダリティ(テキスト、視覚、属性のモダリティ)の情報を活用して製品表現を作成する。複数のモーダル(テキスト,視覚,属性のモダリティ)から情報を追加することが,モデルの性能に与える影響について検討する。特に、CLIP-ITAは、視覚的モダリティのみを活用する類似モデルと、視覚的モダリティと属性的モダリティのみを活用する類似モデルとを著しく上回ります。

関連論文リスト

ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。既存のCLIPベースのアプローチでは、イメージとテキストを独立して埋め込み、結果を融合する。本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文参考訳（メタデータ） (2025-03-01T03:29:02Z)
Multimodal semantic retrieval for product search [6.185573921868495]
商品の純粋テキスト表現とは対照的に,eコマース検索における商品項目のマルチモーダル表現を構築した。商品のマルチモーダル表現スキームは,セマンティック検索における購入リコールや関連精度の向上を示すことができることを示す。
論文参考訳（メタデータ） (2025-01-13T14:34:26Z)
CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP [56.199779065855004]
CLIPEraseは視覚的・テキスト的関連を選択的に忘れる新しいアプローチである。 CIFAR-100とFlickr30Kデータセットの実験は、CLIPEraseがマルチモーダルサンプルのゼロショットタスクにおける指定された関連性を効果的に忘れていることを示している。
論文参考訳（メタデータ） (2024-10-30T17:51:31Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文参考訳（メタデータ） (2024-06-07T06:45:28Z)
A Multi-Granularity Matching Attention Network for Query Intent Classification in E-commerce Retrieval [9.034096715927731]
本稿では,クエリインテント分類のためのMMAN(Multi-granularity Matching Attention Network)を提案する。 MMANには、セルフマッチングモジュール、シャルレベルマッチングモジュール、セマンティックレベルマッチングモジュールの3つのモジュールが含まれている。我々は大規模なオフラインおよびオンラインA/B実験を行い、MMANが強いベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2023-03-28T10:25:17Z)
Unified Vision-Language Representation Modeling for E-Commerce Same-Style Products Retrieval [12.588713044749177]
電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
論文参考訳（メタデータ） (2023-02-10T07:24:23Z)
e-CLIP: Large-Scale Vision-Language Representation Learning in E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文参考訳（メタデータ） (2022-07-01T05:16:47Z)
Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文参考訳（メタデータ） (2022-06-17T15:40:45Z)
Semantic Representation and Dependency Learning for Multi-Label Image Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文参考訳（メタデータ） (2022-04-08T00:55:15Z)
PAM: Understanding Product Images in Cross Product Category Attribute Extraction [40.332066960433245]
この研究は、属性抽出に様々なモダリティを完全に活用するより包括的なフレームワークを提案する。視覚的質問応答における最近の研究に触発されて,製品テキスト,光学的文字認識(OCR)トークン,および製品画像から検出された視覚オブジェクトの表現を融合するために,トランスフォーマーに基づくシーケンスモデルを用いている。フレームワークはさらに拡張されており、複数の製品カテゴリにまたがる属性値を単一のモデルで抽出することができる。
論文参考訳（メタデータ） (2021-06-08T18:30:17Z)
Large Scale Multimodal Classification Using an Ensemble of Transformer Models and Co-Attention [2.842794675894731]
本稿では,SIGIR eCom Rakuten Data Challengeの方法論と結果について述べる。我々は、事前訓練された言語と画像埋め込みを用いて、画像とテキストの関係をモデル化するために、二重注意法を用いる。
論文参考訳（メタデータ） (2020-11-23T21:22:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。