論文の概要: ImplicitAVE: An Open-Source Dataset and Multimodal LLMs Benchmark for Implicit Attribute Value Extraction
- arxiv url: http://arxiv.org/abs/2404.15592v1
- Date: Wed, 24 Apr 2024 01:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 14:53:37.628088
- Title: ImplicitAVE: An Open-Source Dataset and Multimodal LLMs Benchmark for Implicit Attribute Value Extraction
- Title(参考訳): ImplicitAVE: インプシット属性値抽出のためのオープンソースデータセットとマルチモーダルLCMベンチマーク
- Authors: Henry Peng Zou, Vinay Samuel, Yue Zhou, Weizhi Zhang, Liancheng Fang, Zihe Song, Philip S. Yu, Cornelia Caragea,
- Abstract要約: ImplicitAVEは、暗黙の属性値抽出のための最初の、公開のマルチモーダルデータセットである。
データセットには5つのドメインにわたる68kのトレーニングと1.6kのテストデータが含まれている。
また,マルチモーダル大言語モデル(MLLM)の暗黙的AVEへの適用についても検討する。
- 参考スコア(独自算出の注目度): 67.86012624533461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing datasets for attribute value extraction (AVE) predominantly focus on explicit attribute values while neglecting the implicit ones, lack product images, are often not publicly available, and lack an in-depth human inspection across diverse domains. To address these limitations, we present ImplicitAVE, the first, publicly available multimodal dataset for implicit attribute value extraction. ImplicitAVE, sourced from the MAVE dataset, is carefully curated and expanded to include implicit AVE and multimodality, resulting in a refined dataset of 68k training and 1.6k testing data across five domains. We also explore the application of multimodal large language models (MLLMs) to implicit AVE, establishing a comprehensive benchmark for MLLMs on the ImplicitAVE dataset. Six recent MLLMs with eleven variants are evaluated across diverse settings, revealing that implicit value extraction remains a challenging task for MLLMs. The contributions of this work include the development and release of ImplicitAVE, and the exploration and benchmarking of various MLLMs for implicit AVE, providing valuable insights and potential future research directions. Dataset and code are available at https://github.com/HenryPengZou/ImplicitAVE
- Abstract(参考訳): 既存の属性値抽出(AVE)データセットは、暗黙の属性を無視しながら、明示的な属性値に重点を置いている。
これらの制限に対処するため、暗黙的な属性値抽出のための最初の公開マルチモーダルデータセットであるImplicitAVEを提案する。
MAVEデータセットからソースされたImplicitAVEは、暗黙のAVEとマルチモダリティを含むように慎重にキュレーションされ、結果として5つのドメインにわたる68kトレーニングと1.6kテストデータの洗練されたデータセットが生成される。
また,マルチモーダル大言語モデル(MLLM)を暗黙AVEに適用し,ImplicitAVEデータセット上でMLLMの包括的なベンチマークを確立する。
11種類のMLLMを持つ最近の6つのMLLMは、さまざまな設定で評価されており、暗黙的な値抽出がMLLMにとって難しい課題であることを示している。
この研究の貢献には、ImplicitAVEの開発とリリース、暗黙のAVEのための様々なMLLMの探索とベンチマークが含まれ、貴重な洞察と将来の研究方向性を提供する。
データセットとコードはhttps://github.com/HenryPengZou/ImplicitAVEで入手できる。
関連論文リスト
- FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。
我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文 参考訳(メタデータ) (2024-08-09T20:55:46Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。
MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。
MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文 参考訳(メタデータ) (2024-06-17T17:59:47Z) - EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM [52.016009472409166]
EIVENは暗黙的な属性値抽出のためのデータおよびパラメータ効率の良い生成フレームワークである。
本稿では,モデル混同を減らすための新しい学習・比較手法を提案する。
実験の結果,EIVENは暗黙的属性値の抽出において既存の手法よりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-13T03:15:56Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - MAVE: A Product Dataset for Multi-source Attribute Value Extraction [10.429320377835241]
製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。
MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。
マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T06:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。