論文の概要: Grounding Partially-Defined Events in Multimodal Data
- arxiv url: http://arxiv.org/abs/2410.05267v1
- Date: Mon, 7 Oct 2024 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:57:23.958275
- Title: Grounding Partially-Defined Events in Multimodal Data
- Title(参考訳): マルチモーダルデータにおける部分決定事象のグラウンド化
- Authors: Kate Sanders, Reno Kriz, David Etter, Hannah Recknor, Alexander Martin, Cameron Carpenter, Jingyang Lin, Benjamin Van Durme,
- Abstract要約: 部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
- 参考スコア(独自算出の注目度): 61.0063273919745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How are we able to learn about complex current events just from short snippets of video? While natural language enables straightforward ways to represent under-specified, partially observable events, visual data does not facilitate analogous methods and, consequently, introduces unique challenges in event understanding. With the growing prevalence of vision-capable AI agents, these systems must be able to model events from collections of unstructured video data. To tackle robust event modeling in multimodal settings, we introduce a multimodal formulation for partially-defined events and cast the extraction of these events as a three-stage span retrieval task. We propose a corresponding benchmark for this task, MultiVENT-G, that consists of 14.5 hours of densely annotated current event videos and 1,168 text documents, containing 22.8K labeled event-centric entities. We propose a collection of LLM-driven approaches to the task of multimodal event analysis, and evaluate them on MultiVENT-G. Results illustrate the challenges that abstract event understanding poses and demonstrates promise in event-centric video-language systems.
- Abstract(参考訳): ビデオの短いスニペットから、複雑な現在のイベントをどうやって学ぶことができるのか?
自然言語は、未特定で部分的に観測可能な事象を表現できるが、視覚データは類似した手法を助長せず、結果としてイベント理解に固有の課題をもたらす。
ビジョン対応AIエージェントの普及に伴い、これらのシステムは、構造化されていないビデオデータのコレクションからイベントをモデル化できなければならない。
マルチモーダル・セッティングにおけるロバストなイベント・モデリングに取り組むために,部分定義イベントに対するマルチモーダル・フォーミュレーションを導入し,これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクに対応するベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む14.5時間毎の濃密な注釈付き現在のイベントビデオと1,168のテキストドキュメントからなる。
本稿では,マルチモーダルイベント解析の課題に対するLLM駆動型アプローチのコレクションを提案し,それらをMultiVENT-G上で評価する。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
関連論文リスト
- MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文 参考訳(メタデータ) (2024-09-14T08:30:59Z) - EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across
Modalities [43.048896440009784]
マルチモーダル(ビデオとテキスト)データからイベント階層を抽出するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解するのに不可欠である。
我々は,この課題に対して,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
論文 参考訳(メタデータ) (2022-06-14T23:24:15Z) - PILED: An Identify-and-Localize Framework for Few-Shot Event Detection [79.66042333016478]
本研究では,事前学習した言語モデルから事象関連知識を引き出すために,クローゼプロンプトを用いた。
型固有のパラメータの数を最小化し、新しい型に対するイベント検出タスクに迅速に適応できるようにします。
論文 参考訳(メタデータ) (2022-02-15T18:01:39Z) - Joint Multimedia Event Extraction from Video and Article [51.159034070824056]
本稿では,ビデオ記事やテキスト記事からイベントを共同抽出する手法を提案する。
まず,自己教師型マルチモーダルイベントコアモデルを提案する。
第2に、ビデオとテキストの両方から構造化イベント情報を共同で抽出する、最初のマルチモーダルトランスフォーマーを導入する。
論文 参考訳(メタデータ) (2021-09-27T03:22:12Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。