論文の概要: Joint Multimedia Event Extraction from Video and Article
- arxiv url: http://arxiv.org/abs/2109.12776v1
- Date: Mon, 27 Sep 2021 03:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:15:12.238821
- Title: Joint Multimedia Event Extraction from Video and Article
- Title(参考訳): ビデオと記事からの複合マルチメディアイベント抽出
- Authors: Brian Chen, Xudong Lin, Christopher Thomas, Manling Li, Shoya Yoshida,
Lovish Chum, Heng Ji, and Shih-Fu Chang
- Abstract要約: 本稿では,ビデオ記事やテキスト記事からイベントを共同抽出する手法を提案する。
まず,自己教師型マルチモーダルイベントコアモデルを提案する。
第2に、ビデオとテキストの両方から構造化イベント情報を共同で抽出する、最初のマルチモーダルトランスフォーマーを導入する。
- 参考スコア(独自算出の注目度): 51.159034070824056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual and textual modalities contribute complementary information about
events described in multimedia documents. Videos contain rich dynamics and
detailed unfoldings of events, while text describes more high-level and
abstract concepts. However, existing event extraction methods either do not
handle video or solely target video while ignoring other modalities. In
contrast, we propose the first approach to jointly extract events from video
and text articles. We introduce the new task of Video MultiMedia Event
Extraction (Video M2E2) and propose two novel components to build the first
system towards this task. First, we propose the first self-supervised
multimodal event coreference model that can determine coreference between video
events and text events without any manually annotated pairs. Second, we
introduce the first multimodal transformer which extracts structured event
information jointly from both videos and text documents. We also construct and
will publicly release a new benchmark of video-article pairs, consisting of 860
video-article pairs with extensive annotations for evaluating methods on this
task. Our experimental results demonstrate the effectiveness of our proposed
method on our new benchmark dataset. We achieve 6.0% and 5.8% absolute F-score
gain on multimodal event coreference resolution and multimedia event
extraction.
- Abstract(参考訳): 視覚とテキストのモダリティは、マルチメディア文書に記述されたイベントに関する補完的な情報を提供する。
ビデオにはリッチなダイナミクスとイベントの詳細な展開が含まれ、テキストにはよりハイレベルで抽象的な概念が記述されている。
しかし、既存のイベント抽出方法は、他のモダリティを無視しながら、ビデオやターゲットビデオのみを処理しない。
対照的に,ビデオやテキストからイベントを同時抽出する最初の手法を提案する。
本稿では,映像マルチメディアイベント抽出(video m2e2)の新たなタスクを紹介し,この課題に向けて最初のシステムを構築するための2つの新しいコンポーネントを提案する。
まず,ビデオイベントとテキストイベントの相互参照を手作業でアノテートすることなく決定できる,最初の自己教師付きマルチモーダルイベントコリファレンスモデルを提案する。
第2に,ビデオとテキスト文書の両方から構造化イベント情報を抽出する第1次マルチモーダルトランスについて紹介する。
我々はまた、860の映像記事ペアからなり、このタスクのメソッドを評価するための広範なアノテーションを含むビデオ記事ペアのベンチマークを新たに構築し、公開する予定です。
提案手法が新しいベンチマークデータセットに与える影響を実験的に検証した。
マルチモーダルイベントコリファレンス解像度とマルチメディアイベント抽出において、6.0%と5.8%の絶対f-scoreゲインを達成している。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across
Modalities [43.048896440009784]
マルチモーダル(ビデオとテキスト)データからイベント階層を抽出するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解するのに不可欠である。
我々は,この課題に対して,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
論文 参考訳(メタデータ) (2022-06-14T23:24:15Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z) - GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video
Summarization [18.543372365239673]
提案モデルは,コンテキスト化された映像要約制御器,マルチモーダルアテンション機構,対話型アテンションネットワーク,映像要約生成器から構成される。
その結果, 最新手法と比較して, 精度5.88%, F1スコアが4.06%上昇し, このモデルが有効であることが示された。
論文 参考訳(メタデータ) (2021-04-26T10:50:37Z) - Cross-media Structured Common Space for Multimedia Event Extraction [82.36301617438268]
マルチメディア文書からイベントとその引数を抽出することを目的とした,MultiMedia Event extract (M2E2) というタスクを導入する。
本稿では,意味情報の構造化表現を共通埋め込み空間にエンコードする新しい手法,Weakly Aligned Structured Embedding (WASE)を提案する。
画像を利用することで、従来のテキストのみの手法よりも21.4%多くのイベント参照を抽出する。
論文 参考訳(メタデータ) (2020-05-05T20:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。