Fugu-MT 論文翻訳(概要): GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling

論文の概要: GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling

arxiv url: http://arxiv.org/abs/2404.04763v1
Date: Sun, 7 Apr 2024 00:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 19:40:41.306432
Title: GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling
Title（参考訳）: GenEARL: マルチモーダルイベント引数ロールラベル作成のためのトレーニング不要な生成フレームワーク
Authors: Hritik Bansal, Po-Nien Kung, P. Jeffrey Brantingham, Kai-Wei Chang, Nanyun Peng,
Abstract要約: GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。 GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
参考スコア（独自算出の注目度）: 89.07386210297373
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal event argument role labeling (EARL), a task that assigns a role for each event participant (object) in an image is a complex challenge. It requires reasoning over the entire image, the depicted event, and the interactions between various objects participating in the event. Existing models heavily rely on high-quality event-annotated training data to understand the event semantics and structures, and they fail to generalize to new event types and domains. In this paper, we propose GenEARL, a training-free generative framework that harness the power of the modern generative models to understand event task descriptions given image contexts to perform the EARL task. Specifically, GenEARL comprises two stages of generative prompting with a frozen vision-language model (VLM) and a frozen large language model (LLM). First, a generative VLM learns the semantics of the event argument roles and generates event-centric object descriptions based on the image. Subsequently, a LLM is prompted with the generated object descriptions with a predefined template for EARL (i.e., assign an object with an event argument role). We show that GenEARL outperforms the contrastive pretraining (CLIP) baseline by 9.4% and 14.2% accuracy for zero-shot EARL on the M2E2 and SwiG datasets, respectively. In addition, we outperform CLIP-Event by 22% precision on M2E2 dataset. The framework also allows flexible adaptation and generalization to unseen domains.
Abstract（参考訳）: マルチモーダルイベント引数ロールラベル(EARL)は、画像内の各イベント参加者(オブジェクト)にロールを割り当てるタスクである。画像全体、描写されたイベント、およびイベントに参加するさまざまなオブジェクト間のインタラクションを推論する必要がある。既存のモデルは、イベントセマンティクスと構造を理解するために、高品質なイベントアノテートされたトレーニングデータに大きく依存しています。本稿では,最新の生成モデルのパワーを生かした学習自由な生成フレームワークGenEARLを提案する。具体的には、GenEARLは、凍結視覚言語モデル(VLM)と凍結大型言語モデル(LLM)の2つの生成プロンプトからなる。まず、生成VLMは、イベント引数の役割の意味を学習し、画像に基づいてイベント中心のオブジェクト記述を生成する。その後、 LLM は EARL の事前定義されたテンプレートで生成されたオブジェクト記述でトリガーされる(つまり、オブジェクトにイベント引数ロールを割り当てる)。 GenEARLは、M2E2データセットとSwiGデータセットのゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。さらに、M2E2データセット上で、CLIP-Eventを22%精度でパフォーマンスします。このフレームワークはまた、目に見えない領域へのフレキシブルな適応と一般化を可能にする。

関連論文リスト

New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
EventVL: Understand Event Streams via Multimodal Large Language Model [18.57504605615107]
明示的意味理解のためのイベントベースMLLMフレームワークであるEventVLを提案する。具体的には、異なるモダリティセマンティクスを接続するためにデータギャップをブリッジするために、まず大きなイベントイメージ/ビデオテキストデータセットに注釈を付ける。よりコンパクトなセマンティック空間を促進するために、イベントのスパースなセマンティック空間を改善するために動的セマンティックアライメントが導入される。
論文参考訳（メタデータ） (2025-01-23T14:37:21Z)
EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文参考訳（メタデータ） (2024-12-01T14:38:40Z)
Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文参考訳（メタデータ） (2024-10-07T17:59:48Z)
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文参考訳（メタデータ） (2024-09-23T06:56:51Z)
Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文参考訳（メタデータ） (2024-09-14T08:30:59Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文参考訳（メタデータ） (2023-08-06T15:05:42Z)
CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2022-01-13T17:03:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。