論文の概要: SlideVQA: A Dataset for Document Visual Question Answering on Multiple
Images
- arxiv url: http://arxiv.org/abs/2301.04883v1
- Date: Thu, 12 Jan 2023 09:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:32:19.253110
- Title: SlideVQA: A Dataset for Document Visual Question Answering on Multiple
Images
- Title(参考訳): slidevqa: 複数の画像に対する視覚的質問応答を文書化するデータセット
- Authors: Ryota Tanaka, Kyosuke Nishida, Kosuke Nishida, Taku Hasegawa, Itsumi
Saito, Kuniko Saito
- Abstract要約: 52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。
我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
- 参考スコア(独自算出の注目度): 10.207285051832258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering on document images that contain textual, visual,
and layout information, called document VQA, has received much attention
recently. Although many datasets have been proposed for developing document VQA
systems, most of the existing datasets focus on understanding the content
relationships within a single image and not across multiple images. In this
study, we propose a new multi-image document VQA dataset, SlideVQA, containing
2.6k+ slide decks composed of 52k+ slide images and 14.5k questions about a
slide deck. SlideVQA requires complex reasoning, including single-hop,
multi-hop, and numerical reasoning, and also provides annotated arithmetic
expressions of numerical answers for enhancing the ability of numerical
reasoning. Moreover, we developed a new end-to-end document VQA model that
treats evidence selection and question answering in a unified
sequence-to-sequence format. Experiments on SlideVQA show that our model
outperformed existing state-of-the-art QA models, but that it still has a large
gap behind human performance. We believe that our dataset will facilitate
research on document VQA.
- Abstract(参考訳): 近年,文書VQAと呼ばれるテキスト情報,視覚情報,レイアウト情報を含む文書画像に対する視覚的質問応答が注目されている。
文書VQAシステムを開発するために多くのデータセットが提案されているが、既存のデータセットのほとんどは、単一の画像内のコンテンツ関係を理解し、複数の画像にまたがるものではない。
本研究では,52k以上のスライド画像とスライドデッキに関する14.5kの質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。
SlideVQAは、単一ホップ、マルチホップ、数値推論を含む複雑な推論を必要とし、数値推論の能力を高めるために、数値解の注釈付き算術表現を提供する。
さらに,証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で処理する文書VQAモデルを開発した。
SlideVQAの実験では、我々のモデルは既存の最先端QAモデルよりも優れていますが、人間のパフォーマンスに大きなギャップがあることが示されています。
われわれのデータセットは文書VQAの研究を促進するだろう。
関連論文リスト
- TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Discovering the Unknown Knowns: Turning Implicit Knowledge in the
Dataset into Explicit Training Examples for Visual Question Answering [18.33311267792116]
学習したVQAモデルに対する「未知」の多くは、データセットの中で暗黙的に「未知」であることがわかった。
我々は、この"既知の"知識をVQAのトレーニング例に変換するために、シンプルなデータ拡張パイプラインSimpleAugを紹介します。
論文 参考訳(メタデータ) (2021-09-13T16:56:43Z) - A survey on VQA_Datasets and Approaches [0.0]
視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の技法を組み合わせたタスクである。
本稿では、VQAタスクのために提案された既存のデータセット、メトリクス、モデルを検討および分析する。
論文 参考訳(メタデータ) (2021-05-02T08:50:30Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z) - DocVQA: A Dataset for VQA on Document Images [34.283866728784616]
DocVQAと呼ばれる文書画像に対して,視覚質問応答(VQA)のための新しいデータセットを提案する。
データセットは、12,000以上のドキュメントイメージに定義されている50,000の質問で構成されている。VQAと読み込みの理解に関する類似のデータセットと比較して、データセットの詳細な分析結果が提示される。
論文 参考訳(メタデータ) (2020-07-01T11:37:40Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。