論文の概要: SlideVQA: A Dataset for Document Visual Question Answering on Multiple
Images
- arxiv url: http://arxiv.org/abs/2301.04883v1
- Date: Thu, 12 Jan 2023 09:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:32:19.253110
- Title: SlideVQA: A Dataset for Document Visual Question Answering on Multiple
Images
- Title(参考訳): slidevqa: 複数の画像に対する視覚的質問応答を文書化するデータセット
- Authors: Ryota Tanaka, Kyosuke Nishida, Kosuke Nishida, Taku Hasegawa, Itsumi
Saito, Kuniko Saito
- Abstract要約: 52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。
我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
- 参考スコア(独自算出の注目度): 10.207285051832258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering on document images that contain textual, visual,
and layout information, called document VQA, has received much attention
recently. Although many datasets have been proposed for developing document VQA
systems, most of the existing datasets focus on understanding the content
relationships within a single image and not across multiple images. In this
study, we propose a new multi-image document VQA dataset, SlideVQA, containing
2.6k+ slide decks composed of 52k+ slide images and 14.5k questions about a
slide deck. SlideVQA requires complex reasoning, including single-hop,
multi-hop, and numerical reasoning, and also provides annotated arithmetic
expressions of numerical answers for enhancing the ability of numerical
reasoning. Moreover, we developed a new end-to-end document VQA model that
treats evidence selection and question answering in a unified
sequence-to-sequence format. Experiments on SlideVQA show that our model
outperformed existing state-of-the-art QA models, but that it still has a large
gap behind human performance. We believe that our dataset will facilitate
research on document VQA.
- Abstract(参考訳): 近年,文書VQAと呼ばれるテキスト情報,視覚情報,レイアウト情報を含む文書画像に対する視覚的質問応答が注目されている。
文書VQAシステムを開発するために多くのデータセットが提案されているが、既存のデータセットのほとんどは、単一の画像内のコンテンツ関係を理解し、複数の画像にまたがるものではない。
本研究では,52k以上のスライド画像とスライドデッキに関する14.5kの質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。
SlideVQAは、単一ホップ、マルチホップ、数値推論を含む複雑な推論を必要とし、数値推論の能力を高めるために、数値解の注釈付き算術表現を提供する。
さらに,証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で処理する文書VQAモデルを開発した。
SlideVQAの実験では、我々のモデルは既存の最先端QAモデルよりも優れていますが、人間のパフォーマンスに大きなギャップがあることが示されています。
われわれのデータセットは文書VQAの研究を促進するだろう。
関連論文リスト
- DCQA: Document-Level Chart Question Answering towards Complex Reasoning
and Common-Sense Understanding [19.713647367008143]
文書レベルの質問応答(DCQA)という新しいタスクを導入する。
新たに開発されたベンチマークデータセットは、チャートを幅広いスタイルで統合した50,010の合成文書からなる。
本稿では,テーブルデータ,リッチな色集合,および基本的な質問テンプレートを利用する強力な質問応答生成エンジンの開発について述べる。
論文 参考訳(メタデータ) (2023-10-29T11:38:08Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Discovering the Unknown Knowns: Turning Implicit Knowledge in the
Dataset into Explicit Training Examples for Visual Question Answering [18.33311267792116]
学習したVQAモデルに対する「未知」の多くは、データセットの中で暗黙的に「未知」であることがわかった。
我々は、この"既知の"知識をVQAのトレーニング例に変換するために、シンプルなデータ拡張パイプラインSimpleAugを紹介します。
論文 参考訳(メタデータ) (2021-09-13T16:56:43Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z) - DocVQA: A Dataset for VQA on Document Images [34.283866728784616]
DocVQAと呼ばれる文書画像に対して,視覚質問応答(VQA)のための新しいデータセットを提案する。
データセットは、12,000以上のドキュメントイメージに定義されている50,000の質問で構成されている。VQAと読み込みの理解に関する類似のデータセットと比較して、データセットの詳細な分析結果が提示される。
論文 参考訳(メタデータ) (2020-07-01T11:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。