論文の概要: ACE-BERT: Adversarial Cross-modal Enhanced BERT for E-commerce Retrieval
- arxiv url: http://arxiv.org/abs/2112.07209v1
- Date: Tue, 14 Dec 2021 07:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 15:19:55.335943
- Title: ACE-BERT: Adversarial Cross-modal Enhanced BERT for E-commerce Retrieval
- Title(参考訳): ACE-BERT:Eコマース検索のためのクロスモーダル強化BERT
- Authors: Boxuan Zhang, Chao Wei, Yan Jin and Weiru Zhang
- Abstract要約: 本稿では,効率的なEコマース検索のための新しいアドリラルクロスモーダル拡張BERT(ACE-BERT)を提案する。
事前訓練された拡張BERTをバックボーンネットワークとして、ACE-BERTは異なるモダリティ表現の分布一貫性を確保するために、逆学習を採用する。
実験の結果,ACE-BERTは検索作業における最先端のアプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 6.274310862007448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays on E-commerce platforms, products are presented to the customers
with multiple modalities. These multiple modalities are significant for a
retrieval system while providing attracted products for customers. Therefore,
how to take into account those multiple modalities simultaneously to boost the
retrieval performance is crucial. This problem is a huge challenge to us due to
the following reasons: (1) the way of extracting patch features with the
pre-trained image model (e.g., CNN-based model) has much inductive bias. It is
difficult to capture the efficient information from the product image in
E-commerce. (2) The heterogeneity of multimodal data makes it challenging to
construct the representations of query text and product including title and
image in a common subspace. We propose a novel Adversarial Cross-modal Enhanced
BERT (ACE-BERT) for efficient E-commerce retrieval. In detail, ACE-BERT
leverages the patch features and pixel features as image representation. Thus
the Transformer architecture can be applied directly to the raw image
sequences. With the pre-trained enhanced BERT as the backbone network, ACE-BERT
further adopts adversarial learning by adding a domain classifier to ensure the
distribution consistency of different modality representations for the purpose
of narrowing down the representation gap between query and product.
Experimental results demonstrate that ACE-BERT outperforms the state-of-the-art
approaches on the retrieval task. It is remarkable that ACE-BERT has already
been deployed in our E-commerce's search engine, leading to 1.46% increase in
revenue.
- Abstract(参考訳): 現在、Eコマースプラットフォームでは、製品は複数のモダリティを持つ顧客に提供されています。
これらの複数のモダリティは検索システムにとって重要であり、顧客に対して魅力的な製品を提供している。
したがって,これらの複数モードを同時に考慮して検索性能を向上させることは重要である。
1) 予め訓練された画像モデル(例えばcnnベースのモデル)でパッチの特徴を抽出する方法は、多くの帰納的バイアスを持っています。
電子商取引における商品イメージから効率的な情報を捉えることは困難である。
(2)マルチモーダルデータの多様性は,共通部分空間におけるタイトルやイメージを含む問合せテキストや製品表現の構築を困難にしている。
本稿では, 効率的なEコマース検索のための新しいアドバイザリアルクロスモーダル拡張BERT (ACE-BERT) を提案する。
ACE-BERTは、イメージ表現としてパッチ機能とピクセル機能を利用する。
これにより、トランスフォーマーアーキテクチャを生画像シーケンスに直接適用することができる。
事前訓練された拡張BERTをバックボーンネットワークとして、ACE-BERTは、クエリと製品間の表現ギャップを狭めるために、異なるモダリティ表現の分布一貫性を確保するために、ドメイン分類器を追加することで、逆学習を採用する。
実験の結果,ACE-BERTは検索作業における最先端手法よりも優れていた。
ACE-BERTはすでにEコマースの検索エンジンにデプロイされており、収益は1.46%増加した。
関連論文リスト
- Deep Bag-of-Words Model: An Efficient and Interpretable Relevance Architecture for Chinese E-Commerce [31.076432176267335]
我々は,中国のeコマースにおける効率的かつ解釈可能な関連アーキテクチャであるディープバグ・オブ・ワード(DeepBoW)モデルを提案する。
提案手法は,単語重対の集合であるスパースBoW表現に問合せと積を符号化することである。
関連スコアは、クエリと製品とのスパースBoW表現間の一致した単語の蓄積によって測定される。
論文 参考訳(メタデータ) (2024-07-12T16:18:05Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal
Sponsored Search [27.42717207107]
クロスモーダルスポンサー検索は、消費者が検索エンジンで自然言語クエリーによって望ましい商品を探す際に、マルチモーダル広告(ads)を表示する。
画像とテキストの両方で広告特有の情報を調整できることは、正確で柔軟なスポンサー付き検索に不可欠だ。
広告画像の細粒度部分を対応するテキストに明示的にマッピングする単純なアライメントネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T03:43:57Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval [12.588713044749177]
電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。
電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
論文 参考訳(メタデータ) (2023-02-10T07:24:23Z) - Visually Similar Products Retrieval for Shopsy [0.0]
マルチタスク学習手法を用いて,リセラーコマースのためのビジュアル検索システムを設計する。
我々のモデルは属性分類、三重項ランク付け、変分オートエンコーダ(VAE)の3つの異なるタスクからなる。
論文 参考訳(メタデータ) (2022-10-10T10:59:18Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - Cross-Lingual Low-Resource Set-to-Description Retrieval for Global
E-Commerce [83.72476966339103]
言語間情報検索は、国境を越えたeコマースにおける新しい課題である。
文脈依存型言語間マッピングの強化を図った新しい言語間マッチングネットワーク(CLMN)を提案する。
実験結果から,提案したCLMNは課題に対して印象的な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-05-17T08:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。