論文の概要: MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding
- arxiv url: http://arxiv.org/abs/2112.10728v1
- Date: Mon, 20 Dec 2021 18:23:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 15:41:06.324691
- Title: MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding
- Title(参考訳): MuMuQA: クロスメディア知識抽出とグラウンド化によるマルチメディアマルチホップニュース質問応答
- Authors: Revanth Gangi Reddy, Xilin Rui, Manling Li, Xudong Lin, Haoyang Wen,
Jaemin Cho, Lifu Huang, Mohit Bansal, Avirup Sil, Shih-Fu Chang, Alexander
Schwing, Heng Ji
- Abstract要約: 我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
- 参考スコア(独自算出の注目度): 131.8797942031366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been an increasing interest in building question
answering (QA) models that reason across multiple modalities, such as text and
images. However, QA using images is often limited to just picking the answer
from a pre-defined set of options. In addition, images in the real world,
especially in news, have objects that are co-referential to the text, with
complementary information from both modalities. In this paper, we present a new
QA evaluation benchmark with 1,384 questions over news articles that require
cross-media grounding of objects in images onto text. Specifically, the task
involves multi-hop questions that require reasoning over image-caption pairs to
identify the grounded visual object being referred to and then predicting a
span from the news body text to answer the question. In addition, we introduce
a novel multimedia data augmentation framework, based on cross-media knowledge
extraction and synthetic question-answer generation, to automatically augment
data that can provide weak supervision for this task. We evaluate both
pipeline-based and end-to-end pretraining-based multimedia QA models on our
benchmark, and show that they achieve promising performance, while considerably
lagging behind human performance hence leaving large room for future work on
this challenging new task.
- Abstract(参考訳): 近年,テキストや画像といった複数のモダリティを理由とする質問応答(qa)モデル構築への関心が高まっている。
しかし、画像を使用するQAは、事前に定義されたオプションセットから答えを選択するだけに限られることが多い。
さらに、現実世界、特にニュースにおける画像は、両方のモダリティから補完的な情報を持って、テキストと共参照のオブジェクトを持つ。
本稿では,画像中のオブジェクトをテキストにクロスメディア化する必要のあるニュース記事に対して,1384の質問を含む新しいqa評価ベンチマークを提案する。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
さらに,クロスメディアな知識抽出と合成質問応答生成に基づく新たなマルチメディアデータ拡張フレームワークを導入し,このタスクを弱くするデータを自動的に強化する。
パイプラインベースとエンドツーエンドの事前トレーニングベースのマルチメディアQAモデルの両方をベンチマークで評価し,有望なパフォーマンスを実現する一方で,人的パフォーマンスにかなり遅れていることを示す。
関連論文リスト
- RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z) - MultiQG-TI: Towards Question Generation from Multi-modal Sources [4.913248451323163]
画像やテキストを含むマルチモーダルソースからの質問自動生成の課題について検討する。
我々は,テキストのみの質問生成器で視覚入力を処理できるMultiQG-TIという,新しい問題の簡単な解を提案する。
MultiQG-TIは、訓練可能なパラメータが100倍も少ないにもかかわらず、数発のプロンプトでChatGPTを著しく上回っていることを実証した。
論文 参考訳(メタデータ) (2023-07-07T08:14:15Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - VTQA: Visual Text Question Answering via Entity Alignment and
Cross-Media Reasoning [21.714382546678053]
画像テキストペア10124に基づいて,23,781の質問を含むデータセットを新たに提案する。
この課題の目的は、マルチメディアエンティティアライメント、マルチステップ推論、オープンな回答生成が可能なモデルを開発し、ベンチマークすることである。
論文 参考訳(メタデータ) (2023-03-05T10:32:26Z) - Multimodal Inverse Cloze Task for Knowledge-based Visual Question
Answering [4.114444605090133]
名前付きエンティティに関する知識に基づく視覚質問応答のための事前学習手法であるMultimodal Inverse Cloze Taskを提案する。
KVQAEは最近導入されたタスクで、知識ベースを使用して視覚的コンテキストに接地された名前付きエンティティに関する質問に答える。
提案手法は異なるニューラルネットワークアーキテクチャに適用可能であり, 9%の相対MRR, 15%の相対F1ゲインが検索および読解に有効である。
論文 参考訳(メタデータ) (2023-01-11T09:16:34Z) - SPRING: Situated Conversation Agent Pretrained with Multimodal Questions
from Incremental Layout Graph [16.275155481031348]
Incremental Layout Graph (SPRing) を用いた多モーダル質問を学習した特定対話エージェントを提案する。
プレトレーニングで使用するQAペアはすべて、新規なインクリメンタルレイアウトグラフ(ILG)から生成される。
実験により,SPRINGの有効性が検証され,SIMMC 1.0とSIMMC 2.0の両方のデータセットに対する最先端のアプローチを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2023-01-05T08:03:47Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。