論文の概要: Adapting Vision-Language Models for E-commerce Understanding at Scale
- arxiv url: http://arxiv.org/abs/2602.11733v1
- Date: Thu, 12 Feb 2026 08:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.736236
- Title: Adapting Vision-Language Models for E-commerce Understanding at Scale
- Title(参考訳): 大規模電子商取引理解のためのビジョンランゲージモデルの適用
- Authors: Matteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi,
- Abstract要約: 汎用視覚言語モデル(VLM)は、一般化可能な多モード潜在モデルを可能にする。
本研究は,VLMの汎用化が電子商取引性能を大幅に向上させる可能性について,大規模な実験的研究を通して示す。
本稿では,製品理解の深化,厳密な指示の追従,動的属性抽出を網羅した新しい評価スイートを提案する。
- 参考スコア(独自算出の注目度): 36.93444961629752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: E-commerce product understanding demands by nature, strong multimodal comprehension from text, images, and structured attributes. General-purpose Vision-Language Models (VLMs) enable generalizable multimodal latent modelling, yet there is no documented, well-known strategy for adapting them to the attribute-centric, multi-image, and noisy nature of e-commerce data, without sacrificing general performance. In this work, we show through a large-scale experimental study, how targeted adaptation of general VLMs can substantially improve e-commerce performance while preserving broad multimodal capabilities. Furthermore, we propose a novel extensive evaluation suite covering deep product understanding, strict instruction following, and dynamic attribute extraction.
- Abstract(参考訳): eコマース製品理解 自然による要求、テキスト、画像、構造化属性からの強いマルチモーダル理解。
VLM(General-purpose Vision-Language Models)は、汎用的なマルチモーダルラテントモデリングを可能にするが、一般的なパフォーマンスを犠牲にすることなく、属性中心、マルチイメージ、ノイズの多いeコマースデータに適応するための文書化された、よく知られた戦略は存在しない。
本研究は,大規模な実験を通じて,汎用VLMのターゲット適応が,広範囲なマルチモーダル能力を保ちながら,電子商取引性能を大幅に向上することを示す。
さらに, 製品理解, 厳密な指示, 動的属性抽出を網羅した, 広範囲な評価スイートを提案する。
関連論文リスト
- EcomMMMU: Strategic Utilization of Visuals for Robust Multimodal E-Commerce Models [16.801877795951572]
電子商取引プラットフォームはマルチモーダルデータに富み、製品の詳細を描写するさまざまなイメージを特徴としている。
これらのイメージは、常に製品の理解を高めるのか、それとも、冗長性やパフォーマンスの低下をもたらすことができるのか?
EcomMMMUは、406,190個のサンプルと8,989,510個の画像を持つ、eコマースマルチモーダルマルチタスク理解データセットである。
論文 参考訳(メタデータ) (2025-08-21T17:01:12Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - A Multimodal In-Context Tuning Approach for E-Commerce Product
Description Generation [47.70824723223262]
マーケティングキーワードを付加した画像から製品記述を生成するための新しい設定を提案する。
本稿では, ModICT という, シンプルで効果的なマルチモーダル・インコンテキスト・チューニング手法を提案する。
実験の結果、ModICTは従来の方法と比較して精度(ルージュ-Lでは最大3.3%)と多様性(D-5では最大9.4%)を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-02-21T07:38:29Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - PUMGPT: A Large Vision-Language Model for Product Understanding [18.70740237744492]
PumGPTは、マルチモーダル製品理解タスク用に設計された最初の電子商取引専用LVLMである。
実験の結果,PumGPTは製品理解タスクにおいて,他の5つのオープンソースLVLMおよびGPT-4Vより優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-18T14:01:37Z) - Learning Instance-Level Representation for Large-Scale Multi-Modal
Pretraining in E-commerce [35.73830796500975]
本研究では, ECLIPと呼ばれるインスタンス中心のマルチモーダル事前学習パラダイムを提案する。
高価な手作業によるアノテーションに頼ることなく、モデルが望ましい製品インスタンスに集中できるようにするために、2つの特別な設定されたプレテキストタスクが提案されている。
ECLIPは、さまざまな下流タスクにおいて既存の手法をはるかに上回り、現実世界のEコマースアプリケーションへの強力な転送可能性を示している。
論文 参考訳(メタデータ) (2023-04-06T04:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。