論文の概要: MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding
- arxiv url: http://arxiv.org/abs/2112.10728v1
- Date: Mon, 20 Dec 2021 18:23:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 15:41:06.324691
- Title: MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding
- Title(参考訳): MuMuQA: クロスメディア知識抽出とグラウンド化によるマルチメディアマルチホップニュース質問応答
- Authors: Revanth Gangi Reddy, Xilin Rui, Manling Li, Xudong Lin, Haoyang Wen,
Jaemin Cho, Lifu Huang, Mohit Bansal, Avirup Sil, Shih-Fu Chang, Alexander
Schwing, Heng Ji
- Abstract要約: 我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
- 参考スコア(独自算出の注目度): 131.8797942031366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been an increasing interest in building question
answering (QA) models that reason across multiple modalities, such as text and
images. However, QA using images is often limited to just picking the answer
from a pre-defined set of options. In addition, images in the real world,
especially in news, have objects that are co-referential to the text, with
complementary information from both modalities. In this paper, we present a new
QA evaluation benchmark with 1,384 questions over news articles that require
cross-media grounding of objects in images onto text. Specifically, the task
involves multi-hop questions that require reasoning over image-caption pairs to
identify the grounded visual object being referred to and then predicting a
span from the news body text to answer the question. In addition, we introduce
a novel multimedia data augmentation framework, based on cross-media knowledge
extraction and synthetic question-answer generation, to automatically augment
data that can provide weak supervision for this task. We evaluate both
pipeline-based and end-to-end pretraining-based multimedia QA models on our
benchmark, and show that they achieve promising performance, while considerably
lagging behind human performance hence leaving large room for future work on
this challenging new task.
- Abstract(参考訳): 近年,テキストや画像といった複数のモダリティを理由とする質問応答(qa)モデル構築への関心が高まっている。
しかし、画像を使用するQAは、事前に定義されたオプションセットから答えを選択するだけに限られることが多い。
さらに、現実世界、特にニュースにおける画像は、両方のモダリティから補完的な情報を持って、テキストと共参照のオブジェクトを持つ。
本稿では,画像中のオブジェクトをテキストにクロスメディア化する必要のあるニュース記事に対して,1384の質問を含む新しいqa評価ベンチマークを提案する。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
さらに,クロスメディアな知識抽出と合成質問応答生成に基づく新たなマルチメディアデータ拡張フレームワークを導入し,このタスクを弱くするデータを自動的に強化する。
パイプラインベースとエンドツーエンドの事前トレーニングベースのマルチメディアQAモデルの両方をベンチマークで評価し,有望なパフォーマンスを実現する一方で,人的パフォーマンスにかなり遅れていることを示す。
関連論文リスト
- Multimodal Inverse Cloze Task for Knowledge-based Visual Question
Answering [4.114444605090133]
名前付きエンティティに関する知識に基づく視覚質問応答のための事前学習手法であるMultimodal Inverse Cloze Taskを提案する。
KVQAEは最近導入されたタスクで、知識ベースを使用して視覚的コンテキストに接地された名前付きエンティティに関する質問に答える。
提案手法は異なるニューラルネットワークアーキテクチャに適用可能であり, 9%の相対MRR, 15%の相対F1ゲインが検索および読解に有効である。
論文 参考訳(メタデータ) (2023-01-11T09:16:34Z) - SPRING: Situated Conversation Agent Pretrained with Multimodal Questions
from Incremental Layout Graph [16.275155481031348]
Incremental Layout Graph (SPRing) を用いた多モーダル質問を学習した特定対話エージェントを提案する。
プレトレーニングで使用するQAペアはすべて、新規なインクリメンタルレイアウトグラフ(ILG)から生成される。
実験により,SPRINGの有効性が検証され,SIMMC 1.0とSIMMC 2.0の両方のデータセットに対する最先端のアプローチを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2023-01-05T08:03:47Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [67.49455494929458]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Structured Two-stream Attention Network for Video Question Answering [168.95603875458113]
本研究では,自由形式の自然言語やオープンな自然言語の疑問に答えるために,構造化された2ストリーム注意ネットワーク,すなわちSTAを提案する。
まず、構造化セグメントコンポーネントを用いてビデオ中にリッチな長距離時間構造を推定し、テキスト特徴を符号化する。
そして、構造化された2ストリームアテンションコンポーネントは、重要な視覚的インスタンスを同時にローカライズし、背景映像の影響を低減し、関連するテキストに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T12:25:52Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Multimodal grid features and cell pointers for Scene Text Visual
Question Answering [7.834170106487722]
本稿では,シーンテキストによる視覚的質問応答のタスクのための新しいモデルを提案する。
問題に適応したマルチモーダルな特徴に対応するアテンションメカニズムに基づいている。
実験では、2つの標準データセットで競合性能を示す。
論文 参考訳(メタデータ) (2020-06-01T13:17:44Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。