論文の概要: MultiModalQA: Complex Question Answering over Text, Tables and Images
- arxiv url: http://arxiv.org/abs/2104.06039v1
- Date: Tue, 13 Apr 2021 09:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:50:12.050274
- Title: MultiModalQA: Complex Question Answering over Text, Tables and Images
- Title(参考訳): MultiModalQA: テキスト、テーブル、画像に対する複雑な質問応答
- Authors: Alon Talmor, Ori Yoran, Amnon Catav, Dan Lahav, Yizhong Wang, Akari
Asai, Gabriel Ilharco, Hannaneh Hajishirzi, Jonathan Berant
- Abstract要約: テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
- 参考スコア(独自算出の注目度): 52.25399438133274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When answering complex questions, people can seamlessly combine information
from visual, textual and tabular sources. While interest in models that reason
over multiple pieces of evidence has surged in recent years, there has been
relatively little work on question answering models that reason across multiple
modalities. In this paper, we present MultiModalQA(MMQA): a challenging
question answering dataset that requires joint reasoning over text, tables and
images. We create MMQA using a new framework for generating complex multi-modal
questions at scale, harvesting tables from Wikipedia, and attaching images and
text paragraphs using entities that appear in each table. We then define a
formal language that allows us to take questions that can be answered from a
single modality, and combine them to generate cross-modal questions. Last,
crowdsourcing workers take these automatically-generated questions and rephrase
them into more fluent language. We create 29,918 questions through this
procedure, and empirically demonstrate the necessity of a multi-modal multi-hop
approach to solve our task: our multi-hop model, ImplicitDecomp, achieves an
average F1of 51.7 over cross-modal questions, substantially outperforming a
strong baseline that achieves 38.2 F1, but still lags significantly behind
human performance, which is at 90.1 F1
- Abstract(参考訳): 複雑な質問に答えると、視覚的、テキスト的、表的な情報源からの情報をシームレスに組み合わせられる。
近年、複数の証拠を推論するモデルに対する関心は高まっているが、複数のモダリティにまたがるモデルに対する疑問応答に関する研究は比較的少ない。
本稿では,テキスト,テーブル,画像に対する共同推論を必要とする質問応答データセットであるMultiModalQA(MMQA)を提案する。
複雑なマルチモーダルな質問を大規模に生成し、ウィキペディアからテーブルを抽出し、各テーブルに現れるエンティティを使って画像やテキストの段落をアタッチする新しいフレームワークを用いてMMQAを作成する。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
最後に、クラウドソーシング労働者は、これらの自動生成された質問を、より流動的な言語に言い換える。
我々のマルチホップモデルである ImplicitDecomp は、クロスモーダルな質問に対して平均 F1 Of 51.7 を達成し、38.2 F1 に達する強力なベースラインを大幅に上回っているが、それでも 90.1 F1 である人間のパフォーマンスを大幅に遅れている。
関連論文リスト
- TANQ: An open domain dataset of table answered questions [15.323690523538572]
TANQは、複数のソースにまたがる情報からテーブルを構築する必要がある、最初のオープンドメイン質問応答データセットである。
結果の表にあるすべてのセルに対する完全なソース属性を公開し、オープン、オラクル、クローズドブックのセットアップで最先端の言語モデルをベンチマークします。
最も優れたベースラインであるGPT4は、全体的なF1スコア29.1に達し、人間のパフォーマンスを19.7ポイント遅れています。
論文 参考訳(メタデータ) (2024-05-13T14:07:20Z) - Improving Question Generation with Multi-level Content Planning [70.37285816596527]
本稿では、与えられたコンテキストと回答から質問を生成する問題に対処し、特に拡張されたコンテキストをまたいだマルチホップ推論を必要とする質問に焦点をあてる。
具体的には、キーフレーズを同時に選択して完全な回答を生成するFA-modelと、生成した全回答を付加的な入力として取り込んだQ-modelの2つのコンポーネントを含む。
論文 参考訳(メタデータ) (2023-10-20T13:57:01Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - WebQA: Multihop and Multimodal QA [49.683300706718136]
自然言語とコンピュータビジョンのギャップをWebQAで埋めることを提案する。
我々の課題は、ソースのモダリティに関係なくシームレスに遷移し、理由を与える統一されたマルチモーダル推論モデルを作ることです。
論文 参考訳(メタデータ) (2021-09-01T19:43:59Z) - FeTaQA: Free-form Table Question Answering [33.018256483762386]
FeTaQAは10Kのウィキペディアベースのテーブル、質問、自由形式の回答、テーブルセルペアをサポートする新しいデータセットである。
FeTaQAは、構造化された知識ソースから複数の不連続な事実の検索、推論、および統合後に自由形式のテキスト回答を生成する必要があるため、より困難なテーブル質問回答設定を提供する。
論文 参考訳(メタデータ) (2021-04-01T09:59:40Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。