論文の概要: DocVQA: A Dataset for VQA on Document Images
- arxiv url: http://arxiv.org/abs/2007.00398v3
- Date: Tue, 5 Jan 2021 05:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 23:38:04.362942
- Title: DocVQA: A Dataset for VQA on Document Images
- Title(参考訳): DocVQA: ドキュメントイメージ上のVQAデータセット
- Authors: Minesh Mathew, Dimosthenis Karatzas, C.V. Jawahar
- Abstract要約: DocVQAと呼ばれる文書画像に対して,視覚質問応答(VQA)のための新しいデータセットを提案する。
データセットは、12,000以上のドキュメントイメージに定義されている50,000の質問で構成されている。VQAと読み込みの理解に関する類似のデータセットと比較して、データセットの詳細な分析結果が提示される。
- 参考スコア(独自算出の注目度): 34.283866728784616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new dataset for Visual Question Answering (VQA) on document
images called DocVQA. The dataset consists of 50,000 questions defined on
12,000+ document images. Detailed analysis of the dataset in comparison with
similar datasets for VQA and reading comprehension is presented. We report
several baseline results by adopting existing VQA and reading comprehension
models. Although the existing models perform reasonably well on certain types
of questions, there is large performance gap compared to human performance
(94.36% accuracy). The models need to improve specifically on questions where
understanding structure of the document is crucial. The dataset, code and
leaderboard are available at docvqa.org
- Abstract(参考訳): DocVQAと呼ばれる文書画像に視覚質問応答(VQA)のための新しいデータセットを提案する。
データセットは、12,000以上のドキュメントイメージで定義された50,000の質問で構成されている。
VQAと読書理解のための類似データセットと比較して、データセットの詳細な分析を行う。
本稿では,既存のVQAの導入と理解モデルによるいくつかのベースライン結果について報告する。
既存のモデルはある種の質問に対して合理的に機能するが、人間のパフォーマンス(94.36%の精度)に比べて大きな性能差がある。
モデルは、ドキュメントの構造を理解することが重要である質問を特に改善する必要があります。
データセット、コード、リーダーボードはdocvqa.orgで入手できる
関連論文リスト
- BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution
Generalization of VQA Models [47.64219291655723]
我々は,VQAモデルの限界を押し上げるために,BinaryVQA(BinaryVQA)と呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
質問の約63%は肯定的な回答を持っている。
論文 参考訳(メタデータ) (2023-01-28T00:03:44Z) - SlideVQA: A Dataset for Document Visual Question Answering on Multiple
Images [10.207285051832258]
52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。
我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
論文 参考訳(メタデータ) (2023-01-12T09:00:42Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - IIRC: A Dataset of Incomplete Information Reading Comprehension
Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。
質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文 参考訳(メタデータ) (2020-11-13T20:59:21Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z) - What do Models Learn from Question Answering Datasets? [2.28438857884398]
モデルが質問応答データセットから読み解きを学習しているかどうかを検討する。
我々は、ドメイン外の例に対する一般化可能性、欠落や不正なデータに対する応答、質問のバリエーションを扱う能力に関するモデルを評価する。
読解を通じて質問応答のタスクをよりよく評価する,将来的なQAデータセットの構築を推奨する。
論文 参考訳(メタデータ) (2020-04-07T15:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。