論文の概要: Cross-media Structured Common Space for Multimedia Event Extraction
- arxiv url: http://arxiv.org/abs/2005.02472v1
- Date: Tue, 5 May 2020 20:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 13:04:45.174586
- Title: Cross-media Structured Common Space for Multimedia Event Extraction
- Title(参考訳): マルチメディアイベント抽出のためのクロスメディア構造化共通空間
- Authors: Manling Li, Alireza Zareian, Qi Zeng, Spencer Whitehead, Di Lu, Heng
Ji, Shih-Fu Chang
- Abstract要約: マルチメディア文書からイベントとその引数を抽出することを目的とした,MultiMedia Event extract (M2E2) というタスクを導入する。
本稿では,意味情報の構造化表現を共通埋め込み空間にエンコードする新しい手法,Weakly Aligned Structured Embedding (WASE)を提案する。
画像を利用することで、従来のテキストのみの手法よりも21.4%多くのイベント参照を抽出する。
- 参考スコア(独自算出の注目度): 82.36301617438268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new task, MultiMedia Event Extraction (M2E2), which aims to
extract events and their arguments from multimedia documents. We develop the
first benchmark and collect a dataset of 245 multimedia news articles with
extensively annotated events and arguments. We propose a novel method, Weakly
Aligned Structured Embedding (WASE), that encodes structured representations of
semantic information from textual and visual data into a common embedding
space. The structures are aligned across modalities by employing a weakly
supervised training strategy, which enables exploiting available resources
without explicit cross-media annotation. Compared to uni-modal state-of-the-art
methods, our approach achieves 4.0% and 9.8% absolute F-score gains on text
event argument role labeling and visual event extraction. Compared to
state-of-the-art multimedia unstructured representations, we achieve 8.3% and
5.0% absolute F-score gains on multimedia event extraction and argument role
labeling, respectively. By utilizing images, we extract 21.4% more event
mentions than traditional text-only methods.
- Abstract(参考訳): 本稿では,マルチメディア文書からイベントとその引数を抽出することを目的としたM2E2タスクを提案する。
最初のベンチマークを開発し、広範囲に注釈付きイベントや議論のある245のマルチメディアニュース記事のデータセットを収集する。
本稿では,テキストおよび視覚データからの意味情報の構造化表現を共通の埋め込み空間にエンコードする新しい手法,Weakly Aligned Structured Embedding (WASE)を提案する。
構造は、明確なクロスメディアアノテーションを使わずに利用可能なリソースを活用できる、弱い教師付きトレーニング戦略を採用することで、モダリティをまたいでアラインメントされる。
単モーダルな最先端手法と比較して,本手法はテキストイベント引数のラベル付けと視覚イベント抽出において4.0%,9.8%の絶対Fスコアゲインを達成する。
最先端のマルチメディア非構造化表現と比較して,マルチメディアイベント抽出と引数ロールラベリングにおいて,f-scoreの絶対値が8.3%と5.%向上した。
画像を利用することで、従来のテキストのみの方法よりも21.4%多くイベントを参照できる。
関連論文リスト
- Training Multimedia Event Extraction With Generated Images and Captions [6.291564630983316]
CAMEL(Cross-modality Augmented Multimedia Event Learning)を提案する。
まず、テキストと画像のラベル付きユニモーダルデータセットから始め、Stable Diffusionのようなオフザシェルフ画像生成器とBLIPのようなイメージキャプタを使って、欠落したモダリティを生成する。
ドメイン間で有効な堅牢な機能を学ぶために、反復的かつ段階的なトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-06-15T09:01:33Z) - Semantics-Consistent Cross-domain Summarization via Optimal Transport
Alignment [80.18786847090522]
本稿では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタントなクロスドメイン要約モデルを提案する。
提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
論文 参考訳(メタデータ) (2022-10-10T14:27:10Z) - M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval [34.343617836027725]
本稿では,テキストクエリとビデオ中の各モダリティコンテンツ間の包括的相互作用を探索するマルチレベルマルチモーダルハイブリッドフュージョンネットワークを提案する。
私たちのフレームワークは,アンサンブルの方法とエンドツーエンドの方法を含む,2種類のトレーニング戦略を提供します。
論文 参考訳(メタデータ) (2022-08-16T10:51:37Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across
Modalities [43.048896440009784]
マルチモーダル(ビデオとテキスト)データからイベント階層を抽出するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解するのに不可欠である。
我々は,この課題に対して,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
論文 参考訳(メタデータ) (2022-06-14T23:24:15Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - Joint Multimedia Event Extraction from Video and Article [51.159034070824056]
本稿では,ビデオ記事やテキスト記事からイベントを共同抽出する手法を提案する。
まず,自己教師型マルチモーダルイベントコアモデルを提案する。
第2に、ビデオとテキストの両方から構造化イベント情報を共同で抽出する、最初のマルチモーダルトランスフォーマーを導入する。
論文 参考訳(メタデータ) (2021-09-27T03:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。