論文の概要: DocVQA: A Dataset for VQA on Document Images
- arxiv url: http://arxiv.org/abs/2007.00398v3
- Date: Tue, 5 Jan 2021 05:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 23:38:04.362942
- Title: DocVQA: A Dataset for VQA on Document Images
- Title(参考訳): DocVQA: ドキュメントイメージ上のVQAデータセット
- Authors: Minesh Mathew, Dimosthenis Karatzas, C.V. Jawahar
- Abstract要約: DocVQAと呼ばれる文書画像に対して,視覚質問応答(VQA)のための新しいデータセットを提案する。
データセットは、12,000以上のドキュメントイメージに定義されている50,000の質問で構成されている。VQAと読み込みの理解に関する類似のデータセットと比較して、データセットの詳細な分析結果が提示される。
- 参考スコア(独自算出の注目度): 34.283866728784616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new dataset for Visual Question Answering (VQA) on document
images called DocVQA. The dataset consists of 50,000 questions defined on
12,000+ document images. Detailed analysis of the dataset in comparison with
similar datasets for VQA and reading comprehension is presented. We report
several baseline results by adopting existing VQA and reading comprehension
models. Although the existing models perform reasonably well on certain types
of questions, there is large performance gap compared to human performance
(94.36% accuracy). The models need to improve specifically on questions where
understanding structure of the document is crucial. The dataset, code and
leaderboard are available at docvqa.org
- Abstract(参考訳): DocVQAと呼ばれる文書画像に視覚質問応答(VQA)のための新しいデータセットを提案する。
データセットは、12,000以上のドキュメントイメージで定義された50,000の質問で構成されている。
VQAと読書理解のための類似データセットと比較して、データセットの詳細な分析を行う。
本稿では,既存のVQAの導入と理解モデルによるいくつかのベースライン結果について報告する。
既存のモデルはある種の質問に対して合理的に機能するが、人間のパフォーマンス(94.36%の精度)に比べて大きな性能差がある。
モデルは、ドキュメントの構造を理解することが重要である質問を特に改善する必要があります。
データセット、コード、リーダーボードはdocvqa.orgで入手できる
関連論文リスト
- NewsQs: Multi-Source Question Generation for the Inquiring Mind [59.79288644158271]
我々は複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQsを紹介する。
FAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問を,従来のマルチドキュメント要約データセットに拡張する。
論文 参考訳(メタデータ) (2024-02-28T16:59:35Z) - Fully Authentic Visual Question Answering Dataset from Online Communities [72.0524198499719]
VQA(Visual Question Answering)は、画像に関する質問に答える機能である。
VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
このデータセットと8つの主流VQAデータセットとの関係を特徴付ける。
論文 参考訳(メタデータ) (2023-11-27T06:19:00Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution
Generalization of VQA Models [47.64219291655723]
我々は,VQAモデルの限界を押し上げるために,BinaryVQA(BinaryVQA)と呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
質問の約63%は肯定的な回答を持っている。
論文 参考訳(メタデータ) (2023-01-28T00:03:44Z) - SlideVQA: A Dataset for Document Visual Question Answering on Multiple
Images [10.207285051832258]
52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。
我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
論文 参考訳(メタデータ) (2023-01-12T09:00:42Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - What do Models Learn from Question Answering Datasets? [2.28438857884398]
モデルが質問応答データセットから読み解きを学習しているかどうかを検討する。
我々は、ドメイン外の例に対する一般化可能性、欠落や不正なデータに対する応答、質問のバリエーションを扱う能力に関するモデルを評価する。
読解を通じて質問応答のタスクをよりよく評価する,将来的なQAデータセットの構築を推奨する。
論文 参考訳(メタデータ) (2020-04-07T15:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。