論文の概要: MOON2.0: Dynamic Modality-balanced Multimodal Representation Learning for E-commerce Product Understanding
- arxiv url: http://arxiv.org/abs/2511.12449v1
- Date: Sun, 16 Nov 2025 04:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.177371
- Title: MOON2.0: Dynamic Modality-balanced Multimodal Representation Learning for E-commerce Product Understanding
- Title(参考訳): MOON2.0:Eコマース製品理解のための動的モダリティバランスマルチモーダル表現学習
- Authors: Zhanheng Nie, Chenghan Fu, Daoze Zhang, Junxian Wu, Wanxian Guan, Pengjie Wang, Jian Xu, Bo Zheng,
- Abstract要約: MOON2.0は、eコマース製品理解のための動的モダリティバランスの表現学習フレームワークである。
MoEモジュールは、入力サンプルをモダリティ構成で適応的に処理し、マルチモーダル・ジョイント・ラーニングを可能にする。
MBE2.0は、eコマース表現学習と評価のためのマルチモーダル表現ベンチマークである。
- 参考スコア(独自算出の注目度): 11.989986738179427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of e-commerce calls for multimodal models that comprehend rich visual and textual product information. Although recent multimodal large language models (MLLMs) for product understanding exhibit strong capability in representation learning for e-commerce, they still face three challenges: (i) the modality imbalance induced by modality mixed training; (ii) underutilization of the intrinsic alignment relationships among visual and textual information within a product; and (iii) limited handling of noise in e-commerce multimodal data. To address these, we propose MOON2.0, a dynamic modality-balanced multimodal representation learning framework for e-commerce product understanding. MOON2.0 comprises: (1) a Modality-driven Mixture-of-Experts (MoE) module that adaptively processes input samples by their modality composition, enabling Multimodal Joint Learning to mitigate the modality imbalance; (2) a Dual-level Alignment method to better leverage semantic alignment properties inside individual products; and (3) an MLLM-based Image-text Co-augmentation strategy that integrates textual enrichment with visual expansion, coupled with Dynamic Sample Filtering to improve training data quality. We further introduce MBE2.0, a co-augmented multimodal representation benchmark for e-commerce representation learning and evaluation. Experiments show that MOON2.0 delivers state-of-the-art zero-shot performance on MBE2.0 and multiple public datasets. Furthermore, attention-based heatmap visualization provides qualitative evidence of improved multimodal alignment of MOON2.0.
- Abstract(参考訳): 電子商取引の急速な成長は、リッチなビジュアルおよびテキスト製品情報を理解するマルチモーダルモデルを求めている。
最近の製品理解のためのマルチモーダル大規模言語モデル(MLLM)は、電子商取引における表現学習において強力な能力を示しているが、それでも3つの課題に直面している。
一 モダリティ混合訓練によるモダリティ不均衡
二 製品内における視覚的及びテキスト的情報間の本質的な整合関係の活用
三 電子商取引マルチモーダルデータのノイズ処理の制限
そこで本研究では,電子商取引製品理解のための動的モダリティバランス・マルチモーダル表現学習フレームワークMOON2.0を提案する。
MOON2.0は,(1)モダリティ構成によって入力サンプルを適応的に処理するモダリティ駆動型Mixture-of-Experts (MoE)モジュール,(2)モダリティ不均衡を緩和するマルチモーダル・ジョイント・ラーニング,(2)個々の製品内のセマンティックアライメント特性をよりよく活用するデュアルレベルアライメント手法,(3)テキストエンリッチメントと視覚拡張を統合するMLLMベースの画像テキスト協調拡張戦略,そして,動的サンプル・フィルタリングを併用してトレーニングデータ品質を向上させる。
さらに,電子商取引表現学習と評価のためのマルチモーダル表現ベンチマークであるMBE2.0を紹介する。
実験によると、MOON2.0はMBE2.0と複数のパブリックデータセットで最先端のゼロショットのパフォーマンスを提供する。
さらに、注意に基づく熱マップの可視化は、MOON2.0のマルチモーダルアライメントの改善の質的な証拠を提供する。
関連論文リスト
- Graph4MM: Weaving Multimodal Learning with Structural Information [52.16646463590474]
グラフは、モーダル内およびモーダル間関係をモデル化するための強力な構造情報を提供する。
それまでの作業では、マルチホップの隣人を区別できず、グラフをスタンドアローンのモダリティとして扱う。
グラフベースのマルチモーダル学習フレームワークであるGraph4MMを提案する。
論文 参考訳(メタデータ) (2025-10-19T20:13:03Z) - MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding [19.89836326556511]
生成型多モーダル大規模言語モデルは,製品表現学習の改善に重要な可能性を秘めている。
製品表現学習のための第1世代MLLMモデルMOONを提案する。
本手法では,マルチモーダルおよびアスペクト特化商品のターゲットモデリングに,Mixture-of-Experts (MoE) モジュールを用いた。
論文 参考訳(メタデータ) (2025-08-16T09:59:25Z) - Multi-modal Relational Item Representation Learning for Inferring Substitutable and Complementary Items [10.98931494075836]
本稿では,代替品や補完品を推論するための,自己教師型マルチモーダル・リレーショナル・アイテム表現学習フレームワークを提案する。
MMSCは,(1)マルチモーダルな基本モデルを活用して項目メタデータから学習するマルチモーダルな項目表現学習モジュール,(2)ユーザ行動データから学習する自己教師型行動ベース表現学習モジュール,(3)セマンティックおよびタスクレベルで項目表現を統合する階層型表現集約機構の3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-07-29T22:38:39Z) - Complementarity-driven Representation Learning for Multi-modal Knowledge Graph Completion [0.0]
我々はMixture of Complementary Modality Experts (MoCME)という新しいフレームワークを提案する。
MoCMEはComplementarity-guided Modality Knowledge Fusion (CMKF)モジュールとEntropy-guided Negative Sampling (EGNS)メカニズムで構成されている。
私たちのMoCMEは最先端のパフォーマンスを達成し、既存のアプローチを超越しています。
論文 参考訳(メタデータ) (2025-07-28T08:35:11Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Knowledge Perceived Multi-modal Pretraining in E-commerce [12.012793707741562]
画像とテキストのモダリティに対する現在のマルチモーダル事前学習法は、モダリティの欠如やモダリティノイズに直面して頑健さを欠いている。
我々は,マルチモーダル事前学習における知識モダリティを導入し,ノイズを補正し,画像とテキストのモダリティの欠如を補うK3Mを提案する。
論文 参考訳(メタデータ) (2021-08-20T08:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。