論文の概要: Multimodal Event Graphs: Towards Event Centric Understanding of
Multimodal World
- arxiv url: http://arxiv.org/abs/2206.07207v1
- Date: Tue, 14 Jun 2022 23:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 10:06:11.597721
- Title: Multimodal Event Graphs: Towards Event Centric Understanding of
Multimodal World
- Title(参考訳): マルチモーダルイベントグラフ:マルチモーダル世界のイベント中心理解に向けて
- Authors: Hammad A. Ayyubi, Christopher Thomas, Lovish Chum, Rahul Lokesh, Yulei
Niu, Xudong Lin, Long Chen, Jaywon Koo, Sounak Ray and Shih-Fu Chang
- Abstract要約: 本稿では,このようなイベント関係を認識するために,マルチモーダルイベント関係の新しいタスクを提案する。
我々は,100kのビデオニュース記事ペアからなる大規模データセットと,高密度注釈付きデータのベンチマークに貢献する。
- 参考スコア(独自算出の注目度): 37.08318489422704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how events described or shown in multimedia content relate to
one another is a critical component to developing robust artificially
intelligent systems which can reason about real-world media. While much
research has been devoted to event understanding in the text, image, and video
domains, none have explored the complex relations that events experience across
domains. For example, a news article may describe a `protest' event while a
video shows an `arrest' event. Recognizing that the visual `arrest' event is a
subevent of the broader `protest' event is a challenging, yet important problem
that prior work has not explored. In this paper, we propose the novel task of
MultiModal Event Event Relations to recognize such cross-modal event relations.
We contribute a large-scale dataset consisting of 100k video-news article
pairs, as well as a benchmark of densely annotated data. We also propose a
weakly supervised multimodal method which integrates commonsense knowledge from
an external knowledge base (KB) to predict rich multimodal event hierarchies.
Experiments show that our model outperforms a number of competitive baselines
on our proposed benchmark. We also perform a detailed analysis of our model's
performance and suggest directions for future research.
- Abstract(参考訳): マルチメディアコンテンツに記述または表示されたイベントが相互に関連しているかを理解することは、現実のメディアを推論できる堅牢な人工知能システムを開発する上で重要な要素である。
多くの研究は、テキスト、画像、ビデオドメインにおけるイベント理解に費やされているが、イベントがドメイン間で経験する複雑な関係を探索することはなかった。
例えば、ニュース記事は‘protest’イベントを記述し、ビデオは‘arrest’イベントを表示する。
視覚的な 'arrest' イベントがより広範な 'protest' イベントのサブイベントであることを認識することは、以前の作業が検討していない、挑戦的で、かつ重要な問題である。
本稿では,このようなイベント関係を認識するために,マルチモーダルイベント関係の新しいタスクを提案する。
我々は,100kのビデオニュース記事ペアからなる大規模データセットと,高密度注釈付きデータのベンチマークに貢献する。
また,外部知識ベース(kb)からのコモンセンス知識を統合し,リッチなマルチモーダルイベント階層を予測する弱教師付きマルチモーダル手法を提案する。
実験により,提案するベンチマークにおいて,本モデルが多数の競合ベースラインを上回ることが示された。
また,モデルの性能に関する詳細な分析を行い,今後の研究の方向性を示唆する。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文 参考訳(メタデータ) (2024-09-14T08:30:59Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - Joint Multimedia Event Extraction from Video and Article [51.159034070824056]
本稿では,ビデオ記事やテキスト記事からイベントを共同抽出する手法を提案する。
まず,自己教師型マルチモーダルイベントコアモデルを提案する。
第2に、ビデオとテキストの両方から構造化イベント情報を共同で抽出する、最初のマルチモーダルトランスフォーマーを導入する。
論文 参考訳(メタデータ) (2021-09-27T03:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。