論文の概要: MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding
- arxiv url: http://arxiv.org/abs/2508.11999v1
- Date: Sat, 16 Aug 2025 09:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.507393
- Title: MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding
- Title(参考訳): MOON:eコマース製品理解のためのMLLMに基づくマルチモーダル表現学習
- Authors: Daoze Zhang, Zhanheng Nie, Jianyu Liu, Chenghan Fu, Wanxian Guan, Yuan Gao, Jun Song, Pengjie Wang, Jian Xu, Bo Zheng,
- Abstract要約: 生成型多モーダル大規模言語モデルは,製品表現学習の改善に重要な可能性を秘めている。
製品表現学習のための第1世代MLLMモデルMOONを提案する。
本手法では,マルチモーダルおよびアスペクト特化商品のターゲットモデリングに,Mixture-of-Experts (MoE) モジュールを用いた。
- 参考スコア(独自算出の注目度): 19.89836326556511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of e-commerce, exploring general representations rather than task-specific ones has attracted increasing research attention. For product understanding, although existing discriminative dual-flow architectures drive progress in this field, they inherently struggle to model the many-to-one alignment between multiple images and texts of products. Therefore, we argue that generative Multimodal Large Language Models (MLLMs) hold significant potential for improving product representation learning. Nevertheless, achieving this goal still remains non-trivial due to several key challenges: the lack of multimodal and aspect-aware modeling modules in typical LLMs; the common presence of background noise in product images; and the absence of a standard benchmark for evaluation. To address these issues, we propose the first generative MLLM-based model named MOON for product representation learning. Our method (1) employs a guided Mixture-of-Experts (MoE) module for targeted modeling of multimodal and aspect-specific product content; (2) effectively detects core semantic regions in product images to mitigate the distraction and interference caused by background noise; and (3) introduces the specialized negative sampling strategy to increase the difficulty and diversity of negative samples. In addition, we release a large-scale multimodal benchmark MBE for various product understanding tasks. Experimentally, our model demonstrates competitive zero-shot performance on both our benchmark and the public dataset, showcasing strong generalization across various downstream tasks, including cross-modal retrieval, product classification, and attribute prediction. Furthermore, the case study and visualization illustrate the effectiveness of MOON for product understanding.
- Abstract(参考訳): 電子商取引の急速な進歩に伴い、タスク固有のものよりも一般的な表現を探究することが研究の注目を集めている。
製品を理解するためには、既存の差別的な二重フローアーキテクチャがこの分野で進歩を加速させるが、本質的には複数の画像と製品のテキスト間の多対一のアライメントをモデル化するのに苦労する。
したがって、生成型マルチモーダル大規模言語モデル(MLLM)は、製品表現学習を改善する上で大きな可能性を秘めている。
しかしながら、この目標を達成することは、典型的なLCMにおけるマルチモーダルおよびアスペクト対応モデリングモジュールの欠如、製品イメージにおけるバックグラウンドノイズの共通性、評価のための標準ベンチマークの欠如など、いくつかの重要な課題のために依然として簡単ではない。
これらの課題に対処するために,製品表現学習のためのMOONというMLLMベースのモデルを提案する。
提案手法では,マルチモーダルおよびアスペクト特化製品の内容のターゲットモデリングにMixture-of-Experts(MoE)モジュールを用い,背景雑音による障害や干渉を緩和するため,製品イメージのコアセマンティック領域を効果的に検出し,また,負のサンプルの難易度と多様性を高めるために,特殊な負のサンプリング戦略を導入する。
さらに,各種製品理解タスクのための大規模マルチモーダルベンチマークMBEもリリースした。
実験により,ベンチマークと公開データセットの両方でゼロショット性能の競争性を実証し,クロスモーダル検索,製品分類,属性予測など,さまざまな下流タスクに対する強力な一般化を示す。
さらに、製品理解におけるMOONの有効性について、ケーススタディとビジュアライゼーションを行った。
関連論文リスト
- Benchmarking Multimodal Large Language Models for Missing Modality Completion in Product Catalogues [19.732113077201326]
製品イメージの欠如やテキスト記述など、eコマースプラットフォーム上のモダリティの欠如は、しばしばアノテーションエラーや不完全なメタデータから生じる。
マルチモーダルな大規模言語モデルは、eコマースのシナリオで製品に欠けているモダリティを生成することができるか?
本稿では,コンテンツ品質コンプリートベンチマークと推奨ベンチマークの2つのサブベンチマークからなるMMPCBenchを提案する。
我々は、Qwen2.5-VLおよびGemma-3モデルファミリーから、9つの実世界のeコマースカテゴリーの6つの最先端MLLMを評価し、焦点を当てた。
論文 参考訳(メタデータ) (2026-01-27T16:13:26Z) - Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space [52.34072027212278]
埋め込みモデルは、セマンティック検索や検索強化生成のような現代のAIシステムの基本コンポーネントである。
大規模基盤モデルの最近の進歩は、埋め込みモデルの開発を著しく加速させてきた。
マルチモーダルdLLMを埋め込みモデルに変換するための最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-19T06:51:15Z) - MOON2.0: Dynamic Modality-balanced Multimodal Representation Learning for E-commerce Product Understanding [11.989986738179427]
MOON2.0は、eコマース製品理解のための動的モダリティバランスの表現学習フレームワークである。
MoEモジュールは、入力サンプルをモダリティ構成で適応的に処理し、マルチモーダル・ジョイント・ラーニングを可能にする。
MBE2.0は、eコマース表現学習と評価のためのマルチモーダル表現ベンチマークである。
論文 参考訳(メタデータ) (2025-11-16T04:29:35Z) - Structured and Abstractive Reasoning on Multi-modal Relational Knowledge Images [58.553448128258566]
本稿では,大規模高品質データと能力向上手法の二重ギャップを橋渡しする。
我々は、64Kの高品質なマルチモーダル命令サンプルからなるデータセットSTAR-64Kを導入し、5つのオープンソースMLLMに対して実験を行う。
論文 参考訳(メタデータ) (2025-10-22T02:23:40Z) - Multi-modal Relational Item Representation Learning for Inferring Substitutable and Complementary Items [10.98931494075836]
本稿では,代替品や補完品を推論するための,自己教師型マルチモーダル・リレーショナル・アイテム表現学習フレームワークを提案する。
MMSCは,(1)マルチモーダルな基本モデルを活用して項目メタデータから学習するマルチモーダルな項目表現学習モジュール,(2)ユーザ行動データから学習する自己教師型行動ベース表現学習モジュール,(3)セマンティックおよびタスクレベルで項目表現を統合する階層型表現集約機構の3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-07-29T22:38:39Z) - Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - MMAPS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product
Summarization [93.5217515566437]
マルチモーダル製品要約(MPS: Multi-modal Product Summarization)は、商品の特徴を強調して顧客の購入意欲を高めることを目的としている。
既存のMPS手法は有望な結果をもたらすが、それでもエンドツーエンドの製品要約は欠如している。
本稿では,eコマースにおける高品質な製品要約を生成するために,エンド・ツー・エンドのマルチモーダル属性対応製品要約手法(MMAPS)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:00:09Z) - Product1M: Towards Weakly Supervised Instance-Level Product Retrieval
via Cross-modal Pretraining [108.86502855439774]
弱教師付きマルチモーダル・インスタンスレベルの製品検索を目的とした,より現実的な設定について検討する。
実世界のインスタンスレベルの検索において,最も大規模なマルチモーダル化粧品データセットであるProduct1Mをコントリビュートする。
ケースレベルの予測検索(CAPTURE)のためのクロスモーダル・コントラサシブ・プロダクト・トランスフォーマーという新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T12:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。