論文の概要: e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce
- arxiv url: http://arxiv.org/abs/2207.00208v1
- Date: Fri, 1 Jul 2022 05:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 13:05:16.150921
- Title: e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce
- Title(参考訳): e-CLIP:Eコマースにおける大規模ビジョンランゲージ表現学習
- Authors: Wonyoung Shin, Jonghun Park, Taekang Woo, Yongwoo Cho, Kwangjin Oh,
Hwanjun Song
- Abstract要約: 本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
- 参考スコア(独自算出の注目度): 9.46186546774799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding vision and language representations of product content is vital
for search and recommendation applications in e-commerce. As a backbone for
online shopping platforms and inspired by the recent success in representation
learning research, we propose a contrastive learning framework that aligns
language and visual models using unlabeled raw product text and images. We
present techniques we used to train large-scale representation learning models
and share solutions that address domain-specific challenges. We study the
performance using our pre-trained model as backbones for diverse downstream
tasks, including category classification, attribute extraction, product
matching, product clustering, and adult product recognition. Experimental
results show that our proposed method outperforms the baseline in each
downstream task regarding both single modality and multiple modalities.
- Abstract(参考訳): 製品コンテンツのビジョンと言語表現を理解することは、eコマースにおける検索およびレコメンデーションアプリケーションにとって不可欠である。
オンラインショッピングプラットフォームのバックボーンとして,近年の表現学習研究の成功に触発されて,ラベルなしの生製品テキストと画像を用いて言語と視覚モデルを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提案する。
先行学習モデルを用いて,カテゴリ分類,属性抽出,製品マッチング,製品クラスタリング,アダルト製品認識など,さまざまな下流タスクのバックボーンとしてのパフォーマンスを調査した。
実験の結果,提案手法は単一モードと複数モードの双方に関して,各下流タスクのベースラインよりも優れていた。
関連論文リスト
- Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - ITEm: Unsupervised Image-Text Embedding Learning for eCommerce [9.307841602452678]
製品埋め込みは、電子商取引における幅広い応用の基礎となる。
本稿では,画像とテキストのモダリティによく対応できる画像テキスト埋め込みモデル(ITEm)を提案する。
我々は、非常に類似した商品の探索と製品カテゴリーの予測という2つのタスクにおいて、事前訓練されたITTmを評価する。
論文 参考訳(メタデータ) (2023-10-22T15:39:44Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Efficient Large-Scale Visual Representation Learning And Evaluation [0.13192560874022083]
大規模なeコマースビジョンアプリケーションにおける課題を解説し、視覚表現を効果的に訓練し、評価し、提供する方法を強調する。
いくつかの下流タスクにおける視覚的表現を評価するアブレーション研究について述べる。
大規模なeコマースプラットフォーム上にデプロイされた機械学習システムの実運用におけるオンライン結果を含める。
論文 参考訳(メタデータ) (2023-05-22T18:25:03Z) - Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval [12.588713044749177]
電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。
電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
論文 参考訳(メタデータ) (2023-02-10T07:24:23Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - eProduct: A Million-Scale Visual Search Benchmark to Address Product
Recognition Challenges [8.204924070199866]
eProductは、実世界のさまざまなビジュアル検索ソリューションのトレーニングと評価のためのベンチマークデータセットである。
本稿では,eProductをトレーニングセットと評価セットとして提示し,トレーニングセットには1.3M+のタイトル付き画像と階層的カテゴリラベルが記載されている。
本稿では,eProductの構成手順,多様性の分析,トレーニングしたベースラインモデルの性能について紹介する。
論文 参考訳(メタデータ) (2021-07-13T05:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。