論文の概要: RMPL: Relation-aware Multi-task Progressive Learning with Stage-wise Training for Multimedia Event Extraction
- arxiv url: http://arxiv.org/abs/2602.13748v1
- Date: Sat, 14 Feb 2026 12:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.36977
- Title: RMPL: Relation-aware Multi-task Progressive Learning with Stage-wise Training for Multimedia Event Extraction
- Title(参考訳): RMPL:マルチメディアイベント抽出のための段階的学習による関係認識型マルチタスクプログレッシブラーニング
- Authors: Yongkang Jin, Jianwen Luo, Jingjing Wang, Jianmin Yao, Yu Hong,
- Abstract要約: 本稿では,マルチメディアイベント抽出のための多タスクプログレッシブラーニングフレームワークを提案する。
RMPLは、一様イベント抽出からの異種監視と、ステージワイドトレーニングによるマルチメディア関係抽出を取り入れている。
複数のVLMを用いたM2E2ベンチマークの実験では、異なるモード設定で一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 8.874574211900562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia Event Extraction (MEE) aims to identify events and their arguments from documents that contain both text and images. It requires grounding event semantics across different modalities. Progress in MEE is limited by the lack of annotated training data. M2E2 is the only established benchmark, but it provides annotations only for evaluation. This makes direct supervised training impractical. Existing methods mainly rely on cross-modal alignment or inference-time prompting with Vision--Language Models (VLMs). These approaches do not explicitly learn structured event representations and often produce weak argument grounding in multimodal settings. To address these limitations, we propose RMPL, a Relation-aware Multi-task Progressive Learning framework for MEE under low-resource conditions. RMPL incorporates heterogeneous supervision from unimodal event extraction and multimedia relation extraction with stage-wise training. The model is first trained with a unified schema to learn shared event-centric representations across modalities. It is then fine-tuned for event mention identification and argument role extraction using mixed textual and visual data. Experiments on the M2E2 benchmark with multiple VLMs show consistent improvements across different modality settings.
- Abstract(参考訳): マルチメディアイベント抽出(MEE)は、テキストと画像の両方を含む文書からイベントとその引数を識別することを目的としている。
異なるモダリティをまたいだイベントセマンティクスの基盤化が必要です。
MEEの進歩は、注釈付きトレーニングデータの欠如によって制限される。
M2E2は唯一確立されたベンチマークであるが、評価のみにアノテーションを提供する。
これにより、直接指導的な訓練が不可能となる。
既存の手法は主にビジョン・ランゲージ・モデル(VLM)を用いたクロスモーダルアライメントや推論時間プロンプトに依存している。
これらのアプローチは、構造化されたイベント表現を明示的に学習せず、しばしばマルチモーダルな設定で弱い引数基底を生成する。
低リソース環境下でのMEEのためのマルチタスクプログレッシブラーニングフレームワークRMPLを提案する。
RMPLは、一様イベント抽出からの異種監視と、ステージワイドトレーニングによるマルチメディア関係抽出を取り入れている。
モデルはまず統一スキーマでトレーニングされ、モダリティ間の共有イベント中心表現を学習する。
その後、複合テキストと視覚データを用いたイベント参照識別と引数ロール抽出のために微調整される。
複数のVLMを用いたM2E2ベンチマークの実験では、異なるモード設定で一貫した改善が見られた。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling [89.07386210297373]
GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。
GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
論文 参考訳(メタデータ) (2024-04-07T00:28:13Z) - Training Multimedia Event Extraction With Generated Images and Captions [6.291564630983316]
CAMEL(Cross-modality Augmented Multimedia Event Learning)を提案する。
まず、テキストと画像のラベル付きユニモーダルデータセットから始め、Stable Diffusionのようなオフザシェルフ画像生成器とBLIPのようなイメージキャプタを使って、欠落したモダリティを生成する。
ドメイン間で有効な堅牢な機能を学ぶために、反復的かつ段階的なトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-06-15T09:01:33Z) - Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across
Modalities [43.048896440009784]
マルチモーダル(ビデオとテキスト)データからイベント階層を抽出するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解するのに不可欠である。
我々は,この課題に対して,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
論文 参考訳(メタデータ) (2022-06-14T23:24:15Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。