論文の概要: Catalog Phrase Grounding (CPG): Grounding of Product Textual Attributes
in Product Images for e-commerce Vision-Language Applications
- arxiv url: http://arxiv.org/abs/2308.16354v1
- Date: Wed, 30 Aug 2023 23:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 18:18:56.484858
- Title: Catalog Phrase Grounding (CPG): Grounding of Product Textual Attributes
in Product Images for e-commerce Vision-Language Applications
- Title(参考訳): Catalog Phrase Grounding (CPG) : eコマースビジョンランゲージ用製品画像における製品テキスト属性のグラウンド化
- Authors: Wenyi Wu, Karim Bouyarmane, Ismail Tutar
- Abstract要約: 本稿では,製品画像の対応する領域に製品テキストデータ(タイトル,ブランド)を関連付けるモデルであるCatalog Phrase Grounding(CPG)を提案する。
我々は、Eコマースサイトから合成された230万の画像テキストペアを用いて、自己教師型でモデルをトレーニングする。
実験の結果,CPG表現を既存の生産アンサンブルシステムに組み込むことで,世界全体で平均5%のリコール改善が達成された。
- 参考スコア(独自算出の注目度): 4.705291741591329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Catalog Phrase Grounding (CPG), a model that can associate product
textual data (title, brands) into corresponding regions of product images
(isolated product region, brand logo region) for e-commerce vision-language
applications. We use a state-of-the-art modulated multimodal transformer
encoder-decoder architecture unifying object detection and phrase-grounding. We
train the model in self-supervised fashion with 2.3 million image-text pairs
synthesized from an e-commerce site. The self-supervision data is annotated
with high-confidence pseudo-labels generated with a combination of teacher
models: a pre-trained general domain phrase grounding model (e.g. MDETR) and a
specialized logo detection model. This allows CPG, as a student model, to
benefit from transfer knowledge from these base models combining general-domain
knowledge and specialized knowledge. Beyond immediate catalog phrase grounding
tasks, we can benefit from CPG representations by incorporating them as ML
features into downstream catalog applications that require deep semantic
understanding of products. Our experiments on product-brand matching, a
challenging e-commerce application, show that incorporating CPG representations
into the existing production ensemble system leads to on average 5% recall
improvement across all countries globally (with the largest lift of 11% in a
single country) at fixed 95% precision, outperforming other alternatives
including a logo detection teacher model and ResNet50.
- Abstract(参考訳): 本稿では,e-commerce vision-language アプリケーション用の製品画像(分離製品領域,ブランドロゴ領域)の対応する領域に,製品テキストデータ(タイトル,ブランド)を関連付けるモデルである catalog phrase grounding (cpg) を提案する。
我々は、オブジェクト検出とフレーズグラウンドを統一した最先端の変調マルチモーダルトランスフォーマーエンコーダデコーダアーキテクチャを使用する。
我々は、Eコマースサイトから合成された230万の画像テキストペアを用いて、自己教師型でモデルをトレーニングする。
自己超越データは、教師モデル(例えば、MDETR)と特殊ロゴ検出モデル(英語版)の2つの組み合わせで生成される高信頼の擬似ラベルで注釈付けされる。
これにより、CPGは学生モデルとして、一般的なドメイン知識と専門知識を組み合わせたこれらのベースモデルからの伝達知識の恩恵を受けることができる。
直近のカタログフレーズグラウンドタスク以外にも、プロダクトの深いセマンティック理解を必要とするダウンストリームカタログアプリケーションにML機能として組み込むことで、CPG表現の恩恵を受けることができます。
電子商取引アプリケーションである製品ブランドマッチング実験により,既存の生産アンサンブルシステムにCPG表現を組み込むことで,世界全体で平均5%のリコール改善が達成され,その効果は95%の精度で達成され,ロゴ検出教師モデルやResNet50など,他の選択肢よりも優れていた。
関連論文リスト
- An Interpretable Ensemble of Graph and Language Models for Improving
Search Relevance in E-Commerce [22.449320058423886]
プラグアンドプレイグラフLanguage Model (PP-GLAM) を提案する。
このアプローチでは、均一なデータ処理パイプラインを備えたモジュラーフレームワークを使用します。
PP-GLAMは,実世界のマルチリンガル,マルチリージョンのeコマースデータセット上で,最先端のベースラインとプロプライエタリなモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-01T19:08:25Z) - A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation [47.70824723223262]
マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。
実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-02-21T07:38:29Z) - Localized Symbolic Knowledge Distillation for Visual Commonsense Models [150.18129140140238]
ローカル化されたVisual Commonsenseモデルを構築し、ユーザが入力として(複数の)リージョンを指定できるようにします。
大規模言語モデルから局所的なコモンセンス知識を抽出してモデルを訓練する。
局所化コモンセンスコーパスのトレーニングにより,既存の視覚言語モデルを抽出し,リファレンス・アズ・インプット・インタフェースをサポートできることが判明した。
論文 参考訳(メタデータ) (2023-12-08T05:23:50Z) - Part-Aware Transformer for Generalizable Person Re-identification [138.99827526048205]
ドメイン一般化者再識別(DG-ReID)は、ソースドメインのモデルをトレーニングし、目に見えないドメインでうまく一般化することを目的としている。
我々は、CSL(Cross-ID similarity Learning)と呼ばれるプロキシタスクを設計し、DG-ReIDのための純粋なトランスモデル(Part-aware Transformer)を提案する。
このプロキシタスクは、IDラベルに関わらず、部品の視覚的類似性のみを気にするので、モデルが一般的な機能を学ぶことができる。
論文 参考訳(メタデータ) (2023-08-07T06:15:51Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z) - Automatic Generation of Product-Image Sequence in E-commerce [46.06263129000091]
MUIsC(Multi-modality Unified Imagesequence)は、ルール違反を学習することで、すべてのカテゴリを同時に検出できる。
2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
論文 参考訳(メタデータ) (2022-06-26T23:38:42Z) - An Improved Deep Learning Approach For Product Recognition on Racks in
Retail Stores [2.470815298095903]
小売店における自動製品認識は、コンピュータビジョンとパターン認識の領域における重要な現実世界のアプリケーションである。
我々は、Faster-RCNNベースのオブジェクトローカライザとResNet-18ベースのイメージエンコーダからなる2段階物体検出認識パイプラインを開発した。
各モデルは、より優れた予測のために適切なデータセットを使用して微調整され、各クエリイメージ上でデータ拡張が行われ、ResNet-18ベースの製品認識モデルを微調整するための広範なギャラリーセットが作成される。
論文 参考訳(メタデータ) (2022-02-26T06:51:36Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。