論文の概要: VideoAVE: A Multi-Attribute Video-to-Text Attribute Value Extraction Dataset and Benchmark Models
- arxiv url: http://arxiv.org/abs/2508.11801v1
- Date: Fri, 15 Aug 2025 20:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.380171
- Title: VideoAVE: A Multi-Attribute Video-to-Text Attribute Value Extraction Dataset and Benchmark Models
- Title(参考訳): VideoAVE: マルチ属性ビデオからテキストへの属性値抽出データセットとベンチマークモデル
- Authors: Ming Cheng, Tong Wu, Jiazhen Hu, Jiaying Gong, Hoda Eldardiry,
- Abstract要約: VideoAVEは、14のドメインにまたがって172のユニークな属性をカバーする、初めて公開されたビデオからテキストまでのEコマースAVEデータセットである。
データ品質を確保するために,ポストホックCLIPベースのMixture of Experts Filtering System (CLIP-MoE)を提案する。
結果から,特にオープンな環境では,ビデオからテキストへのAVEは依然として困難な問題であることが明らかとなった。
- 参考スコア(独自算出の注目度): 7.632869516436505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attribute Value Extraction (AVE) is important for structuring product information in e-commerce. However, existing AVE datasets are primarily limited to text-to-text or image-to-text settings, lacking support for product videos, diverse attribute coverage, and public availability. To address these gaps, we introduce VideoAVE, the first publicly available video-to-text e-commerce AVE dataset across 14 different domains and covering 172 unique attributes. To ensure data quality, we propose a post-hoc CLIP-based Mixture of Experts filtering system (CLIP-MoE) to remove the mismatched video-product pairs, resulting in a refined dataset of 224k training data and 25k evaluation data. In order to evaluate the usability of the dataset, we further establish a comprehensive benchmark by evaluating several state-of-the-art video vision language models (VLMs) under both attribute-conditioned value prediction and open attribute-value pair extraction tasks. Our results analysis reveals that video-to-text AVE remains a challenging problem, particularly in open settings, and there is still room for developing more advanced VLMs capable of leveraging effective temporal information. The dataset and benchmark code for VideoAVE are available at: https://github.com/gjiaying/VideoAVE
- Abstract(参考訳): 属性値抽出(AVE)は,eコマースにおける製品情報の構造化に重要である。
しかし、既存のAVVデータセットは、主にテキスト・ツー・テキストまたは画像・ツー・テキスト設定に制限されており、製品ビデオのサポート、多様な属性カバレッジ、パブリックアベイラビリティが欠如している。
このギャップに対処するため、14の異なるドメインにまたがるビデオとテキストのEコマースAVEデータセットとして初めて公開され、172のユニークな属性をカバーしたVideoAVEを紹介します。
データ品質を確保するため,CLIPをベースとしたCLIP-MoE(Mixture of Experts Filtering System)を提案する。
このデータセットのユーザビリティを評価するため、属性条件付き値予測とオープン属性値ペア抽出タスクの両方で、複数の最先端ビデオビジョン言語モデル(VLM)を評価することで、包括的なベンチマークを確立する。
結果から,ビデオからテキストへのAVEは,特にオープンな環境では依然として困難な問題であり,効果的な時間情報を活用することのできる,より高度なVLMを開発する余地があることが明らかとなった。
VideoAVEのデータセットとベンチマークコードは、https://github.com/gjiaying/VideoAVEで公開されている。
関連論文リスト
- DocVideoQA: Towards Comprehensive Understanding of Document-Centric Videos through Question Answering [13.466266412068475]
DocVideoQAタスクとデータセットを初めて紹介し、23のカテゴリにわたる1454のビデオを約828時間に分けた。
データセットには、手動およびGPTを介して154kの質問応答ペアがアノテートされ、モデルの理解、時間的認識、モダリティ統合機能を評価する。
提案手法は,多種多様な指導指導データを用いて一助的特徴抽出を強化し,モダリティ統合を強化するためにコントラスト学習を利用する。
論文 参考訳(メタデータ) (2025-03-20T06:21:25Z) - LLaVA-Video: Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。
このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。
このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文 参考訳(メタデータ) (2024-10-03T17:36:49Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM [52.016009472409166]
EIVENは暗黙的な属性値抽出のためのデータおよびパラメータ効率の良い生成フレームワークである。
本稿では,モデル混同を減らすための新しい学習・比較手法を提案する。
実験の結果,EIVENは暗黙的属性値の抽出において既存の手法よりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-13T03:15:56Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - MAVE: A Product Dataset for Multi-source Attribute Value Extraction [10.429320377835241]
製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。
MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。
マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T06:48:31Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。