論文の概要: Benchmarking Multimodal Large Language Models for Missing Modality Completion in Product Catalogues
- arxiv url: http://arxiv.org/abs/2601.19750v2
- Date: Wed, 28 Jan 2026 11:35:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 13:43:09.372154
- Title: Benchmarking Multimodal Large Language Models for Missing Modality Completion in Product Catalogues
- Title(参考訳): 製品カタログにおけるモダリティ補完の欠如に対するマルチモーダル大言語モデルのベンチマーク
- Authors: Junchen Fu, Wenhao Deng, Kaiwen Zheng, Ioannis Arapakis, Yu Ye, Yongxin Ni, Joemon M. Jose, Xuri Ge,
- Abstract要約: 製品イメージの欠如やテキスト記述など、eコマースプラットフォーム上のモダリティの欠如は、しばしばアノテーションエラーや不完全なメタデータから生じる。
マルチモーダルな大規模言語モデルは、eコマースのシナリオで製品に欠けているモダリティを生成することができるか?
本稿では,コンテンツ品質コンプリートベンチマークと推奨ベンチマークの2つのサブベンチマークからなるMMPCBenchを提案する。
我々は、Qwen2.5-VLおよびGemma-3モデルファミリーから、9つの実世界のeコマースカテゴリーの6つの最先端MLLMを評価し、焦点を当てた。
- 参考スコア(独自算出の注目度): 19.732113077201326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing-modality information on e-commerce platforms, such as absent product images or textual descriptions, often arises from annotation errors or incomplete metadata, impairing both product presentation and downstream applications such as recommendation systems. Motivated by the multimodal generative capabilities of recent Multimodal Large Language Models (MLLMs), this work investigates a fundamental yet underexplored question: can MLLMs generate missing modalities for products in e-commerce scenarios? We propose the Missing Modality Product Completion Benchmark (MMPCBench), which consists of two sub-benchmarks: a Content Quality Completion Benchmark and a Recommendation Benchmark. We further evaluate six state-of-the-art MLLMs from the Qwen2.5-VL and Gemma-3 model families across nine real-world e-commerce categories, focusing on image-to-text and text-to-image completion tasks. Experimental results show that while MLLMs can capture high-level semantics, they struggle with fine-grained word-level and pixel- or patch-level alignment. In addition, performance varies substantially across product categories and model scales, and we observe no trivial correlation between model size and performance, in contrast to trends commonly reported in mainstream benchmarks. We also explore Group Relative Policy Optimization (GRPO) to better align MLLMs with this task. GRPO improves image-to-text completion but does not yield gains for text-to-image completion. Overall, these findings expose the limitations of current MLLMs in real-world cross-modal generation and represent an early step toward more effective missing-modality product completion.
- Abstract(参考訳): 製品イメージの欠如やテキスト記述などのeコマースプラットフォーム上のモダリティの欠如は、しばしばアノテーションエラーや不完全なメタデータから生じ、レコメンデーションシステムのような製品プレゼンテーションと下流アプリケーションの両方を損なう。
最近のMultimodal Large Language Models(MLLM)のマルチモーダル生成能力に触発され、MLLMはeコマースのシナリオで製品に欠落するモダリティを生成できるのか?
本稿では,コンテンツ品質コンプリートベンチマークと推奨ベンチマークの2つのサブベンチマークからなるMMPCBenchを提案する。
Qwen2.5-VL と Gemma-3 モデルファミリから,9つの実世界のeコマースカテゴリにまたがる最先端のMLLMを6つ評価し,画像とテキストと画像の補完タスクに着目した。
実験結果から,MLLMは高レベルなセマンティクスをキャプチャできるが,細粒度なワードレベルやピクセルレベルのアライメントに苦慮していることがわかった。
さらに、パフォーマンスは製品カテゴリやモデルスケールによって大きく異なり、主要なベンチマークでよく報告される傾向とは対照的に、モデルサイズとパフォーマンスの間にはささいな相関関係はみられない。
グループ相対政策最適化(GRPO: Group Relative Policy Optimization)についても検討し、MLLMをこのタスクとよりよく整合させる。
GRPOは画像からテキストへの補完を改善するが、テキストから画像への補完では利得は得られない。
これらの知見は, 実世界のクロスモーダル世代における現在のMLLMの限界を明らかにし, より効果的な失効製品完成に向けた初期段階を示すものである。
関連論文リスト
- MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding [19.89836326556511]
生成型多モーダル大規模言語モデルは,製品表現学習の改善に重要な可能性を秘めている。
製品表現学習のための第1世代MLLMモデルMOONを提案する。
本手法では,マルチモーダルおよびアスペクト特化商品のターゲットモデリングに,Mixture-of-Experts (MoE) モジュールを用いた。
論文 参考訳(メタデータ) (2025-08-16T09:59:25Z) - VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings [11.209519424876762]
マルチモーダル学習は今日,eコマースレコメンデーションプラットフォームにおいて重要な役割を担っている。
CLIPのような既存のビジョン言語モデルは、eコマースレコメンデーションシステムにおいて重要な課題に直面している。
視覚的理解のきめ細かな理解のためにVisual Groundingを統合することにより,CLIPの埋め込みを強化するフレームワークであるVL-CLIPを提案する。
論文 参考訳(メタデータ) (2025-07-22T23:45:43Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - MRAMG-Bench: A Comprehensive Benchmark for Advancing Multimodal Retrieval-Augmented Multimodal Generation [19.745059794932807]
本稿では,MRAMG(Multimodal Retrieval-Augmented Multimodal Generation)タスクを紹介する。
我々は,コーパス内のマルチモーダルデータを完全に活用して,テキストと画像を組み合わせたマルチモーダルな回答を生成することを目指している。
厳密な評価を容易にするため、MRAMG-Benchは統計およびLLMベースのメトリクスの総合的なスイートを組み込んでいる。
論文 参考訳(メタデータ) (2025-02-06T16:07:24Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。