論文の概要: EcomMMMU: Strategic Utilization of Visuals for Robust Multimodal E-Commerce Models
- arxiv url: http://arxiv.org/abs/2508.15721v1
- Date: Thu, 21 Aug 2025 17:01:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.417198
- Title: EcomMMMU: Strategic Utilization of Visuals for Robust Multimodal E-Commerce Models
- Title(参考訳): EcomMMMU:ロバストなマルチモーダルEコマースモデルのためのビジュアルの戦略的利用
- Authors: Xinyi Ling, Hanwen Du, Zhihui Zhu, Xia Ning,
- Abstract要約: 電子商取引プラットフォームはマルチモーダルデータに富み、製品の詳細を描写するさまざまなイメージを特徴としている。
これらのイメージは、常に製品の理解を高めるのか、それとも、冗長性やパフォーマンスの低下をもたらすことができるのか?
EcomMMMUは、406,190個のサンプルと8,989,510個の画像を持つ、eコマースマルチモーダルマルチタスク理解データセットである。
- 参考スコア(独自算出の注目度): 16.801877795951572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: E-commerce platforms are rich in multimodal data, featuring a variety of images that depict product details. However, this raises an important question: do these images always enhance product understanding, or can they sometimes introduce redundancy or degrade performance? Existing datasets are limited in both scale and design, making it difficult to systematically examine this question. To this end, we introduce EcomMMMU, an e-commerce multimodal multitask understanding dataset with 406,190 samples and 8,989,510 images. EcomMMMU is comprised of multi-image visual-language data designed with 8 essential tasks and a specialized VSS subset to benchmark the capability of multimodal large language models (MLLMs) to effectively utilize visual content. Analysis on EcomMMMU reveals that product images do not consistently improve performance and can, in some cases, degrade it. This indicates that MLLMs may struggle to effectively leverage rich visual content for e-commerce tasks. Building on these insights, we propose SUMEI, a data-driven method that strategically utilizes multiple images via predicting visual utilities before using them for downstream tasks. Comprehensive experiments demonstrate the effectiveness and robustness of SUMEI. The data and code are available through https://anonymous.4open.science/r/submission25.
- Abstract(参考訳): 電子商取引プラットフォームはマルチモーダルデータに富み、製品の詳細を描写するさまざまなイメージを特徴としている。
しかし、これは重要な疑問を提起する。これらのイメージは、常に製品の理解を高めるのか、それとも、冗長性やパフォーマンスの低下をもたらすことができるのか?
既存のデータセットはスケールと設計の両方で制限されており、この問題を体系的に検証することは困難である。
この目的のために,406,190個のサンプルと8,989,510個の画像を持つeコマースマルチモーダルマルチタスク理解データセットであるEcomMMMUを紹介する。
EcomMMMUは、8つの重要なタスクと、視覚的コンテンツを効果的に活用するためのマルチモーダルな大規模言語モデル(MLLM)の能力をベンチマークするための特別なVSSサブセットで設計されたマルチモーダル視覚言語データで構成されている。
EcomMMMUの分析によると、製品イメージは一貫して性能を改善しておらず、場合によっては分解可能である。
これは、MLLMがEコマースタスクにリッチなビジュアルコンテンツを効果的に活用するのに苦労していることを示している。
これらの知見に基づいて、下流タスクに使用する前に視覚的ユーティリティを予測することによって、複数のイメージを戦略的に活用するデータ駆動方式SUMEIを提案する。
総合実験はSUMEIの有効性とロバスト性を示す。
データとコードはhttps://anonymous.4open.science/r/submission25.comから入手できる。
関連論文リスト
- Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception [43.387076189063556]
高品質な画像テキストデータセットは、多様な視覚的要素と画像記述全体を提供する。
現在のキャプションエンジンは、完全かつ正確なアノテーションを提供していない。
本稿では,低予算かつ高効率なキャプションエンジンを用いた知覚融合法を提案する。
論文 参考訳(メタデータ) (2024-07-11T08:48:06Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning [42.68425777473114]
大規模言語モデル(LLM)によって強化された視覚言語モデル(VLM)は、急速に人気が高まっている。
マルチモーダル・インコンテキスト・ラーニング(MMICL)を用いた視覚言語モデルを導入し,VLMがマルチモーダル入力を効率的に処理できるようにする。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
論文 参考訳(メタデータ) (2023-09-14T17:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。