論文の概要: ICDAR 2021 Competition on Document VisualQuestion Answering
- arxiv url: http://arxiv.org/abs/2111.05547v1
- Date: Wed, 10 Nov 2021 06:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 20:34:05.832898
- Title: ICDAR 2021 Competition on Document VisualQuestion Answering
- Title(参考訳): icdar 2021 文書視覚質問応答に関するコンペティション
- Authors: Rub\`en Tito, Minesh Mathew, C.V. Jawahar, Ernest Valveny, and
Dimosthenis Karatzas
- Abstract要約: このエディションは、Single Document VQAとDocument Collection VQAに関する以前のタスクを補完する。
Infographics VQAタスクで0.6120 ANLS、Document Collection VQAタスクで0.7743 ANLSL、Single Document VQAで0.8705 ANLSを獲得した。
- 参考スコア(独自算出の注目度): 31.084392784258032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report we present results of the ICDAR 2021 edition of the Document
Visual Question Challenges. This edition complements the previous tasks on
Single Document VQA and Document Collection VQA with a newly introduced on
Infographics VQA. Infographics VQA is based on a new dataset of more than 5,000
infographics images and 30,000 question-answer pairs. The winner methods have
scored 0.6120 ANLS in Infographics VQA task, 0.7743 ANLSL in Document
Collection VQA task and 0.8705 ANLS in Single Document VQA. We present a
summary of the datasets used for each task, description of each of the
submitted methods and the results and analysis of their performance. A summary
of the progress made on Single Document VQA since the first edition of the
DocVQA 2020 challenge is also presented.
- Abstract(参考訳): 本報告では,ICDAR 2021版ドキュメント・ビジュアル・イシュー・チャレンジの結果について述べる。
このエディションは、Single Document VQAとDocument Collection VQAの以前のタスクを補完し、新たに導入されたInfographics VQAを補完する。
Infographics VQAは5000以上のインフォグラフィックイメージと30,000の質問応答ペアからなる新しいデータセットに基づいている。
Infographics VQAタスクで0.6120 ANLS、Document Collection VQAタスクで0.7743 ANLSL、Single Document VQAで0.8705 ANLSを獲得した。
本稿では,各タスクに使用するデータセットの要約,提案した各メソッドの説明,結果と性能分析について述べる。
DocVQA 2020チャレンジの第1版以降のSingle Document VQAの進捗状況も紹介されている。
関連論文リスト
- Fully Authentic Visual Question Answering Dataset from Online Communities [72.0524198499719]
VQA(Visual Question Answering)は、画像に関する質問に答える機能である。
VQAデータセットは、すべてのコンテンツが真正のユースケースから生まれたものである。
このデータセットと8つの主流VQAデータセットとの関係を特徴付ける。
論文 参考訳(メタデータ) (2023-11-27T06:19:00Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - NICE: CVPR 2023 Challenge on Zero-shot Image Captioning [149.28330263581012]
NICEプロジェクトは、堅牢な画像キャプションモデルを開発するためにコンピュータビジョンコミュニティに挑戦するために設計されている。
レポートには、新たに提案されたNICEデータセット、評価方法、課題結果、トップレベルのエントリの技術的な詳細などが含まれている。
論文 参考訳(メタデータ) (2023-09-05T05:32:19Z) - BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution
Generalization of VQA Models [47.64219291655723]
我々は,VQAモデルの限界を押し上げるために,BinaryVQA(BinaryVQA)と呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
質問の約63%は肯定的な回答を持っている。
論文 参考訳(メタデータ) (2023-01-28T00:03:44Z) - SlideVQA: A Dataset for Document Visual Question Answering on Multiple
Images [10.207285051832258]
52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。
我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
論文 参考訳(メタデータ) (2023-01-12T09:00:42Z) - Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets [5.45761450227064]
本稿では,Few-Shot Visual Question Generation (FS-VQG)タスクを提案する。
FS-VQGタスクのメタラーニングと自己教師型戦略に基づく,既存のVQGアプローチと,一般的な数ショットソリューションの評価を行った。
私たちの実験から重要な発見がいくつか出てきました。これは、数ショットのビジョンと言語生成タスクにおいて、現在のモデルの限界に光を当てたものです。
論文 参考訳(メタデータ) (2022-10-13T15:01:15Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - A survey on VQA_Datasets and Approaches [0.0]
視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の技法を組み合わせたタスクである。
本稿では、VQAタスクのために提案された既存のデータセット、メトリクス、モデルを検討および分析する。
論文 参考訳(メタデータ) (2021-05-02T08:50:30Z) - Document Visual Question Answering Challenge 2020 [31.36458851232662]
本稿では,CVPR 2020における「深層学習時代のテキストと文書」ワークショップの一環として組織された文書ビジュアル質問回答チャレンジの結果について述べる。
この課題は、ドキュメントイメージに対する視覚的質問回答という、新しい問題を導入している。
論文 参考訳(メタデータ) (2020-08-20T11:36:36Z) - DocVQA: A Dataset for VQA on Document Images [34.283866728784616]
DocVQAと呼ばれる文書画像に対して,視覚質問応答(VQA)のための新しいデータセットを提案する。
データセットは、12,000以上のドキュメントイメージに定義されている50,000の質問で構成されている。VQAと読み込みの理解に関する類似のデータセットと比較して、データセットの詳細な分析結果が提示される。
論文 参考訳(メタデータ) (2020-07-01T11:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。