論文の概要: GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling
- arxiv url: http://arxiv.org/abs/2404.04763v1
- Date: Sun, 7 Apr 2024 00:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:40:41.306432
- Title: GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling
- Title(参考訳): GenEARL: マルチモーダルイベント引数ロールラベル作成のためのトレーニング不要な生成フレームワーク
- Authors: Hritik Bansal, Po-Nien Kung, P. Jeffrey Brantingham, Kai-Wei Chang, Nanyun Peng,
- Abstract要約: GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。
GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
- 参考スコア(独自算出の注目度): 89.07386210297373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal event argument role labeling (EARL), a task that assigns a role for each event participant (object) in an image is a complex challenge. It requires reasoning over the entire image, the depicted event, and the interactions between various objects participating in the event. Existing models heavily rely on high-quality event-annotated training data to understand the event semantics and structures, and they fail to generalize to new event types and domains. In this paper, we propose GenEARL, a training-free generative framework that harness the power of the modern generative models to understand event task descriptions given image contexts to perform the EARL task. Specifically, GenEARL comprises two stages of generative prompting with a frozen vision-language model (VLM) and a frozen large language model (LLM). First, a generative VLM learns the semantics of the event argument roles and generates event-centric object descriptions based on the image. Subsequently, a LLM is prompted with the generated object descriptions with a predefined template for EARL (i.e., assign an object with an event argument role). We show that GenEARL outperforms the contrastive pretraining (CLIP) baseline by 9.4% and 14.2% accuracy for zero-shot EARL on the M2E2 and SwiG datasets, respectively. In addition, we outperform CLIP-Event by 22% precision on M2E2 dataset. The framework also allows flexible adaptation and generalization to unseen domains.
- Abstract(参考訳): マルチモーダルイベント引数ロールラベル(EARL)は、画像内の各イベント参加者(オブジェクト)にロールを割り当てるタスクである。
画像全体、描写されたイベント、およびイベントに参加するさまざまなオブジェクト間のインタラクションを推論する必要がある。
既存のモデルは、イベントセマンティクスと構造を理解するために、高品質なイベントアノテートされたトレーニングデータに大きく依存しています。
本稿では,最新の生成モデルのパワーを生かした学習自由な生成フレームワークGenEARLを提案する。
具体的には、GenEARLは、凍結視覚言語モデル(VLM)と凍結大型言語モデル(LLM)の2つの生成プロンプトからなる。
まず、生成VLMは、イベント引数の役割の意味を学習し、画像に基づいてイベント中心のオブジェクト記述を生成する。
その後、 LLM は EARL の事前定義されたテンプレートで生成されたオブジェクト記述でトリガーされる(つまり、オブジェクトにイベント引数ロールを割り当てる)。
GenEARLは、M2E2データセットとSwiGデータセットのゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
さらに、M2E2データセット上で、CLIP-Eventを22%精度でパフォーマンスします。
このフレームワークはまた、目に見えない領域へのフレキシブルな適応と一般化を可能にする。
関連論文リスト
- PromptCL: Improving Event Representation via Prompt Template and Contrastive Learning [3.481567499804089]
本稿では,イベント表現学習のための新しいフレームワークであるPromptCLを紹介する。
PromptCLは、短いイベントテキストのセマンティクスを包括的にキャプチャするPLMの機能を提供する。
実験の結果,PromptCLはイベント関連タスクにおける最先端のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-04-27T12:22:43Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [94.04010017961917]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - Prompt-based Graph Model for Joint Liberal Event Extraction and Event Schema Induction [1.3154296174423619]
イベントは、エンティティの状態の変化を記述する、スピーチとテキストの不可欠なコンポーネントである。
イベント抽出タスクは、イベントを特定して分類し、イベントスキーマに従って参加者を見つけることを目的としている。
研究者らは、イベント抽出とイベントスキーマの同時発見を目的とした、リベラルイベント抽出(LEE)を提案する。
論文 参考訳(メタデータ) (2024-03-19T07:56:42Z) - MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding
Dataset with Event Argument Annotation [107.41719717693199]
MAVEN-Argは、イベント検出、イベント引数抽出、イベント関係抽出をサポートする最初のオールインワンデータセットである。
EAEベンチマークでは、(1)162のイベントタイプと612の引数ロールをカバーする包括的なスキーマ、(2)98,591のイベントと290,613の引数を含む大規模なデータスケール、(3)EAEのすべてのタスク変種をサポートする包括的なアノテーションの3つの利点がある。
論文 参考訳(メタデータ) (2023-11-15T16:52:14Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。