論文の概要: Learning Instance-Level Representation for Large-Scale Multi-Modal
Pretraining in E-commerce
- arxiv url: http://arxiv.org/abs/2304.02853v1
- Date: Thu, 6 Apr 2023 04:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 15:26:29.266816
- Title: Learning Instance-Level Representation for Large-Scale Multi-Modal
Pretraining in E-commerce
- Title(参考訳): Eコマースにおける大規模マルチモーダル事前学習のためのインスタンスレベル表現の学習
- Authors: Yang Jin, Yongzhi Li, Zehuan Yuan, Yadong Mu
- Abstract要約: 本研究では, ECLIPと呼ばれるインスタンス中心のマルチモーダル事前学習パラダイムを提案する。
高価な手作業によるアノテーションに頼ることなく、モデルが望ましい製品インスタンスに集中できるようにするために、2つの特別な設定されたプレテキストタスクが提案されている。
ECLIPは、さまざまな下流タスクにおいて既存の手法をはるかに上回り、現実世界のEコマースアプリケーションへの強力な転送可能性を示している。
- 参考スコア(独自算出の注目度): 35.73830796500975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to establish a generic multi-modal foundation model that has
the scalable capability to massive downstream applications in E-commerce.
Recently, large-scale vision-language pretraining approaches have achieved
remarkable advances in the general domain. However, due to the significant
differences between natural and product images, directly applying these
frameworks for modeling image-level representations to E-commerce will be
inevitably sub-optimal. To this end, we propose an instance-centric multi-modal
pretraining paradigm called ECLIP in this work. In detail, we craft a decoder
architecture that introduces a set of learnable instance queries to explicitly
aggregate instance-level semantics. Moreover, to enable the model to focus on
the desired product instance without reliance on expensive manual annotations,
two specially configured pretext tasks are further proposed. Pretrained on the
100 million E-commerce-related data, ECLIP successfully extracts more generic,
semantic-rich, and robust representations. Extensive experimental results show
that, without further fine-tuning, ECLIP surpasses existing methods by a large
margin on a broad range of downstream tasks, demonstrating the strong
transferability to real-world E-commerce applications.
- Abstract(参考訳): 本稿では,Eコマースにおける下流アプリケーションを大規模化するための拡張性を備えた,汎用的なマルチモーダル基盤モデルを確立することを目的とする。
近年,大規模視覚言語事前学習手法が一般分野において著しい進歩を遂げている。
しかし、自然画像と製品画像の大きな違いのため、画像レベルの表現をeコマースにモデリングするためのフレームワークを直接適用することは必然的に最適ではない。
そこで本研究では,ECLIPと呼ばれるインスタンス中心のマルチモーダル事前学習パラダイムを提案する。
詳細は、学習可能なインスタンスクエリのセットを導入し、インスタンスレベルのセマンティクスを明示的に集約するデコーダアーキテクチャを構築します。
さらに、高価な手動アノテーションに頼ることなく、モデルが望ましい製品インスタンスに集中できるようにするために、2つの特別な設定されたプレテキストタスクが提案されている。
1億のEコマース関連のデータに基づいて、ECLIPはより汎用的でセマンティックで堅牢な表現を抽出することに成功している。
大規模な実験結果から,ECLIPはより微調整をせずに,広範囲の下流タスクにおいて既存の手法をはるかに上回り,現実のEコマースアプリケーションへの強力な転送可能性を示している。
関連論文リスト
- eCeLLM: Generalizing Large Language Models for E-commerce from Large-scale, High-quality Instruction Data [12.895762133464103]
電子商取引のための,最初のオープンソース,大規模,高品質なベンチマークインストラクションデータセットであるECInstructを構築した。
我々は,eコマース LLM のシリーズである eCeLLM を開発した。
eCeLLMは、目に見えない製品や目に見えない命令を含む、ドメイン外の設定に優れた一般化性を示す。
論文 参考訳(メタデータ) (2024-02-13T22:26:24Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task
Tasks for E-commerce [68.72104414369635]
本稿では,約250万の命令データを持つ電子商取引指導データセットであるEcomInstructを提案する。
EcomGPTは、Eコマースタスクにおけるクロスデータセット/タスクの一般化という観点で、ChatGPTを上回っている。
論文 参考訳(メタデータ) (2023-08-14T06:49:53Z) - Boosting Multi-Modal E-commerce Attribute Value Extraction via Unified
Learning Scheme and Dynamic Range Minimization [14.223683006262151]
本稿では,統合学習スキームとダイナミックレンジ最小化によるマルチモーダルeコマース属性値抽出手法を提案する。
一般的なマルチモーダル電子商取引ベンチマークの実験は、我々の手法が他の最先端技術よりも優れた性能を発揮することを示している。
論文 参考訳(メタデータ) (2022-07-15T03:58:04Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Knowledge Perceived Multi-modal Pretraining in E-commerce [12.012793707741562]
画像とテキストのモダリティに対する現在のマルチモーダル事前学習法は、モダリティの欠如やモダリティノイズに直面して頑健さを欠いている。
我々は,マルチモーダル事前学習における知識モダリティを導入し,ノイズを補正し,画像とテキストのモダリティの欠如を補うK3Mを提案する。
論文 参考訳(メタデータ) (2021-08-20T08:01:28Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。