論文の概要: MOON3.0: Reasoning-aware Multimodal Representation Learning for E-commerce Product Understanding
- arxiv url: http://arxiv.org/abs/2604.00513v2
- Date: Thu, 02 Apr 2026 12:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.371479
- Title: MOON3.0: Reasoning-aware Multimodal Representation Learning for E-commerce Product Understanding
- Title(参考訳): MOON3.0:eコマース製品理解のためのマルチモーダル表現学習
- Authors: Junxian Wu, Chenghan Fu, Zhanheng Nie, Daoze Zhang, Bowen Wan, Wanxian Guan, Chuan Yu, Jian Xu, Bo Zheng,
- Abstract要約: 我々は、MLLMの推論能力を利用して、きめ細かい製品属性を明示的にモデル化することが大きな可能性を秘めていると論じる。
製品表現学習のためのMLLMに基づく最初の推論モデルであるMOON3.0を提案する。
- 参考スコア(独自算出の注目度): 13.985610562698348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid growth of e-commerce, exploring general representations rather than task-specific ones has attracted increasing attention. Although recent multimodal large language models (MLLMs) have driven significant progress in product understanding, they are typically employed as feature extractors that implicitly encode product information into global embeddings, thereby limiting their ability to capture fine-grained attributes. Therefore, we argue that leveraging the reasoning capabilities of MLLMs to explicitly model fine-grained product attributes holds significant potential. Nevertheless, achieving this goal remains non-trivial due to several key challenges: (i) long-context reasoning tends to dilute the model's attention to salient information in the raw input; (ii) supervised fine-tuning (SFT) primarily encourages rigid imitation, limiting the exploration of effective reasoning strategies; and (iii) fine-grained details are progressively attenuated during forward propagation. To address these issues, we propose MOON3.0, the first reasoning-aware MLLM-based model for product representation learning. Our method (1) employs a multi-head modality fusion module to adaptively integrate raw signals; (2) incorporates a joint contrastive and reinforcement learning framework to autonomously explore more effective reasoning strategies; and (3) introduces a fine-grained residual enhancement module to progressively preserve local details throughout the network. Additionally, we release a large-scale multimodal e-commerce benchmark MBE3.0. Experimentally, our model demonstrates state-of-the-art zero-shot performance across various downstream tasks on both our benchmark and public datasets.
- Abstract(参考訳): 電子商取引の急速な成長に伴い、タスク固有のものよりも一般的な表現を探究することが注目されている。
近年のMLLM(Multimodal large language model)は製品理解に大きな進歩をもたらしたが、一般的には製品情報をグローバルな埋め込みに暗黙的にエンコードする機能抽出器として使われ、それによって細粒度の属性を捕捉する能力が制限される。
したがって、MLLMの推論能力を活用して、きめ細かい製品属性を明示的にモデル化することは、大きな可能性を秘めていると論じる。
それでも、いくつかの重要な課題のために、この目標を達成することは簡単ではない。
一 原文入力における有能な情報に対するモデルの注意を薄める傾向があること。
(二)指導的微調整(SFT)は、主に厳格な模倣を奨励し、効果的な推論戦略の探索を制限する。
(iii)前方伝播中に細粒度が徐々に減衰する。
これらの課題に対処するため,製品表現学習のためのMLLMに基づく最初の推論モデルであるMOON3.0を提案する。
提案手法では,適応的に生信号を統合するためにマルチヘッドモード融合モジュールを使用し,(2)より効果的な推論戦略を自律的に探索する統合コントラスト・強化学習フレームワークを導入し,(3)ネットワーク全体の局所的な詳細を段階的に保存する微細な残留拡張モジュールを導入している。
さらに,大規模なマルチモーダルeコマースベンチマークMBE3.0をリリースする。
実験により、ベンチマークと公開データセットの両方で、さまざまなダウンストリームタスクに対して、最先端のゼロショット性能を実証した。
関連論文リスト
- Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - Think Then Embed: Generative Context Improves Multimodal Embedding [51.76690812535934]
本稿では,ユニバーサル・マルチモーダル・エンベディング (UME) のためのThink-Then-Embed (TTE) フレームワークを提案する。
強力なMLLM推論器を利用することで、MMEB-V2ベンチマークで最先端のパフォーマンスを達成し、大規模な社内データセットでトレーニングされたプロプライエタリモデルを上回った。
論文 参考訳(メタデータ) (2025-10-06T16:53:56Z) - MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding [19.89836326556511]
生成型多モーダル大規模言語モデルは,製品表現学習の改善に重要な可能性を秘めている。
製品表現学習のための第1世代MLLMモデルMOONを提案する。
本手法では,マルチモーダルおよびアスペクト特化商品のターゲットモデリングに,Mixture-of-Experts (MoE) モジュールを用いた。
論文 参考訳(メタデータ) (2025-08-16T09:59:25Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Enhanced Multimodal Aspect-Based Sentiment Analysis by LLM-Generated Rationales [7.119479942471737]
既存の方法は、画像とテキストの両方からアスペクトや感情に関連する情報を集めるために、事前訓練された小さな言語モデル(SLM)に依存している。
我々は,SLMの意思決定能力とMABSAのためのLLMが提供する付加情報を組み合わせた新しいフレームワークLRSAを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:28:26Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。