論文の概要: E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs
- arxiv url: http://arxiv.org/abs/2602.08355v1
- Date: Mon, 09 Feb 2026 07:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.114929
- Title: E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs
- Title(参考訳): E-VAds: MLLMのベンチマークを理解するEコマースショートビデオ
- Authors: Xianjie Liu, Yiman Hu, Liang Wu, Ping Hu, Yixiong Zou, Jian Xu, Bo Zheng,
- Abstract要約: textbfE-Commerce Video Ads Benchmark (E-VAds)は,eコマースのショートビデオ理解に特化して設計された最初のベンチマークである。
我々はまた,textbfMG-GRPOと呼ばれる多粒度報酬設計を特徴とするRLに基づく推論モデルである textbfE-VAds-R1 を開発した。
E-VAds-R1は、数百のトレーニングサンプルだけで商業目的の推論で109.2%のパフォーマンス向上を達成した。
- 参考スコア(独自算出の注目度): 25.622308043098187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: E-commerce short videos represent a high-revenue segment of the online video industry characterized by a goal-driven format and dense multi-modal signals. Current models often struggle with these videos because existing benchmarks focus primarily on general-purpose tasks and neglect the reasoning of commercial intent. In this work, we first propose a \textbf{multi-modal information density assessment framework} to quantify the complexity of this domain. Our evaluation reveals that e-commerce content exhibits substantially higher density across visual, audio, and textual modalities compared to mainstream datasets, establishing a more challenging frontier for video understanding. To address this gap, we introduce \textbf{E-commerce Video Ads Benchmark (E-VAds)}, which is the first benchmark specifically designed for e-commerce short video understanding. We curated 3,961 high-quality videos from Taobao covering a wide range of product categories and used a multi-agent system to generate 19,785 open-ended Q&A pairs. These questions are organized into two primary dimensions, namely Perception and Cognition and Reasoning, which consist of five distinct tasks. Finally, we develop \textbf{E-VAds-R1}, an RL-based reasoning model featuring a multi-grained reward design called \textbf{MG-GRPO}. This strategy provides smooth guidance for early exploration while creating a non-linear incentive for expert-level precision. Experimental results demonstrate that E-VAds-R1 achieves a 109.2% performance gain in commercial intent reasoning with only a few hundred training samples.
- Abstract(参考訳): Eコマースのショートビデオは、ゴール駆動型フォーマットと密集したマルチモーダル信号によって特徴づけられるオンラインビデオ産業の高精細な部分を表している。
現在のモデルは、既存のベンチマークが主に汎用的なタスクに焦点を当てており、商業的意図の理由を無視しているため、これらのビデオに苦労することが多い。
本研究ではまず,この領域の複雑さを定量化するために,まず,<textbf{multi-modal information density assessment framework}を提案する。
評価の結果、電子商取引コンテンツは主流のデータセットに比べて、視覚、音声、テキストのモダリティの密度がかなり高く、ビデオ理解のフロンティアがより困難であることが判明した。
このギャップに対処するため,eコマースのショートビデオ理解に特化して設計された最初のベンチマークである,‘textbf{E-Commerce Video Ads Benchmark(E-VAds)’を導入する。
さまざまな製品カテゴリをカバーしたTaobaoの高品質ビデオ3,961本をキュレートし,マルチエージェントシステムを用いて19,785組のオープンエンドQ&Aペアを生成した。
これらの質問は、知覚と認知と推論の2つの主要な次元に分けられ、それらは5つの異なるタスクから構成される。
最後に、RLに基づく推論モデルである \textbf{E-VAds-R1} を開発した。
この戦略は、専門家レベルの精度のための非線形インセンティブを作成しながら、早期探索のための円滑なガイダンスを提供する。
実験の結果、E-VAds-R1は、数百のトレーニングサンプルだけで商業目的の推論で109.2%の性能向上を達成した。
関連論文リスト
- Optimizing Product Deduplication in E-Commerce with Multimodal Embeddings [0.13999481573773068]
電子商取引分野向けに設計されたスケーラブルでマルチモーダルな製品重複を導入します。
提案手法では,BERTアーキテクチャを基盤としたドメイン固有テキストモデルとMaskedAutoEncodersを併用して画像表現を行う。
これらの特徴抽出機構を最適化されたベクトルデータベースであるMilvusと統合することにより,より効率的かつ高精度な類似性探索を実現することができる。
論文 参考訳(メタデータ) (2025-09-19T10:49:39Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [93.73583158211115]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - The 1st Solution for 4th PVUW MeViS Challenge: Unleashing the Potential of Large Multimodal Models for Referring Video Segmentation [31.44879457190659]
本稿では,ビデオセグメンテーションにおけるLMMの可能性を完全に解き放つための,シンプルで効果的な推論最適化手法を提案する。
我々のソリューションはMeViSテストセットで61.98%のJ&Fを達成し、CVPR 2025で第4回PVUWチャレンジMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2025-04-07T15:24:54Z) - UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - A Multimodal Framework for Video Ads Understanding [64.70769354696019]
広告ビデオコンテンツの構造化分析能力を向上させるためのマルチモーダルシステムの開発を行う。
2021年のTAAC最終リーダーボードでは, 位置推定と予測精度を考慮した0.2470のスコアを得た。
論文 参考訳(メタデータ) (2021-08-29T16:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。