論文の概要: Benchmarking and Improving LVLMs on Event Extraction from Multimedia Documents
- arxiv url: http://arxiv.org/abs/2509.12876v1
- Date: Tue, 16 Sep 2025 09:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.00129
- Title: Benchmarking and Improving LVLMs on Event Extraction from Multimedia Documents
- Title(参考訳): マルチメディア文書からのイベント抽出におけるLVLMのベンチマークと改善
- Authors: Fuyu Xing, Zimu Wang, Wei Wang, Haiyang Zhang,
- Abstract要約: We present the first systematic evaluation of representative LVLMs, including DeepSeek-VL2 and the Qwen-VL series, on the M2E2 dataset。
LVLMは視覚的タスクでは顕著に優れているが、テキストタスクではかなり苦労する。
LVLMは、モダリティを組み合わせる際に強い相乗効果を示し、クロスモーダル環境での優れた性能を実現する。
- 参考スコア(独自算出の注目度): 9.799586939041644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of multimedia content necessitates the development of effective Multimedia Event Extraction (M2E2) systems. Though Large Vision-Language Models (LVLMs) have shown strong cross-modal capabilities, their utility in the M2E2 task remains underexplored. In this paper, we present the first systematic evaluation of representative LVLMs, including DeepSeek-VL2 and the Qwen-VL series, on the M2E2 dataset. Our evaluations cover text-only, image-only, and cross-media subtasks, assessed under both few-shot prompting and fine-tuning settings. Our key findings highlight the following valuable insights: (1) Few-shot LVLMs perform notably better on visual tasks but struggle significantly with textual tasks; (2) Fine-tuning LVLMs with LoRA substantially enhances model performance; and (3) LVLMs exhibit strong synergy when combining modalities, achieving superior performance in cross-modal settings. We further provide a detailed error analysis to reveal persistent challenges in areas such as semantic precision, localization, and cross-modal grounding, which remain critical obstacles for advancing M2E2 capabilities.
- Abstract(参考訳): マルチメディアコンテンツの拡散は、効果的なマルチメディアイベント抽出(M2E2)システムの開発を必要とする。
LVLM(Large Vision-Language Models)は、強力なクロスモーダル機能を示しているが、M2E2タスクの実用性はまだ未定である。
本稿では、M2E2データセット上で、DeepSeek-VL2とQwen-VLシリーズを含む代表LVLMの最初の系統的評価を行う。
本評価では,テキストのみのサブタスク,画像のみのサブタスク,およびクロスメディアのサブタスクを,数発のプロンプトと微調整の両方で評価する。
1)LVLMは視覚的タスクにおいて顕著に優れた性能を示すが,テキストタスクと大きく競合する,(2)LoRAを用いた微調整LVLMはモデル性能を大幅に向上させる,(3)LVLMはモダリティを組み合わせる際に強い相乗効果を示し,クロスモーダル設定において優れた性能を発揮する,といった重要な知見が浮かび上がっている。
さらに, 意味的精度, 局所化, モーダル間接地など, M2E2の能力向上に重要な障害が残る領域において, 永続的な課題を明らかにするために, 詳細な誤り解析を行う。
関連論文リスト
- Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - M$^2$IV: Towards Efficient and Fine-grained Multimodal In-Context Learning via Representation Engineering [21.75002972755496]
マルチモーダル・インコンテキスト・ラーニング(ICL)は、LVLM(Large Vision-Language Models)と、複数のユーザが提供するデモを通じて新しいタスクに適応する能力を備えている。
しかし、その効果はマルチモーダル入力のトークン集約性や、クロスモーダルな数ショット推論の複雑さによって制約されている。
textbfM$2$IVは、明示的なトークンレベルのデモを学習可能なマルチモーダル・インコンテキストベクトルの集合に置き換える新しい表現工学手法である。
論文 参考訳(メタデータ) (2025-04-06T22:02:21Z) - E2LVLM:Evidence-Enhanced Large Vision-Language Model for Multimodal Out-of-Context Misinformation Detection [7.1939657372410375]
E2LVLM(E2LVLM)は、2つのレベルにテキスト証拠を適応させることにより、新たなエビデンスを強化した大規模視覚言語モデルである。
判断と説明の両方でニュース領域データセットの不足に対処するため、我々は新しいOOCマルチモーダル命令追従データセットを生成する。
多数の実験により、E2LVLMは最先端の手法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-12T04:25:14Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。