論文の概要: Asking questions on handwritten document collections
- arxiv url: http://arxiv.org/abs/2110.00711v1
- Date: Sat, 2 Oct 2021 02:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 05:03:29.440689
- Title: Asking questions on handwritten document collections
- Title(参考訳): 手書き文書コレクションに関する質問
- Authors: Minesh Mathew, Lluis Gomez, Dimosthenis Karatzas and CV Jawahar
- Abstract要約: 本研究は手書き文書コレクションにおける質問回答(QA)の問題に対処する。
一般的なQAやVQA(Visual Question Answering)とは違い,回答は短いテキストである。
我々は,手書き文書や,堅牢なテキスト認識が困難な歴史的コレクションに,認識自由なアプローチが適していると主張している。
- 参考スコア(独自算出の注目度): 35.85762649504866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work addresses the problem of Question Answering (QA) on handwritten
document collections. Unlike typical QA and Visual Question Answering (VQA)
formulations where the answer is a short text, we aim to locate a document
snippet where the answer lies. The proposed approach works without recognizing
the text in the documents. We argue that the recognition-free approach is
suitable for handwritten documents and historical collections where robust text
recognition is often difficult. At the same time, for human users, document
image snippets containing answers act as a valid alternative to textual
answers. The proposed approach uses an off-the-shelf deep embedding network
which can project both textual words and word images into a common sub-space.
This embedding bridges the textual and visual domains and helps us retrieve
document snippets that potentially answer a question. We evaluate results of
the proposed approach on two new datasets: (i) HW-SQuAD: a synthetic,
handwritten document image counterpart of SQuAD1.0 dataset and (ii) BenthamQA:
a smaller set of QA pairs defined on documents from the popular Bentham
manuscripts collection. We also present a thorough analysis of the proposed
recognition-free approach compared to a recognition-based approach which uses
text recognized from the images using an OCR. Datasets presented in this work
are available to download at docvqa.org
- Abstract(参考訳): 本研究は手書き文書コレクションにおける質問回答(QA)の問題に対処する。
一般的なqaや視覚質問応答(vqa)とは異なり、私たちは答えが短いテキストである文書スニペットを見つけることを目指しています。
提案手法は文書中のテキストを認識せずに機能する。
テキスト認識が堅牢な場合が多い手書き文書や歴史資料には認識フリーアプローチが適していると主張する。
同時に、人間のユーザにとって、回答を含む文書イメージスニペットは、テキスト回答の有効な代替手段として機能する。
提案手法では,テキストワードと単語イメージの両方を共通部分空間に投影する,既製のディープ埋め込みネットワークを用いている。
この埋め込みはテキストドメインとビジュアルドメインをブリッジし、質問に答える可能性のあるドキュメントスニペットの検索を支援する。
2つの新しいデータセットに対する提案手法の結果を評価する。
(i)HW-SQuAD:SQuAD1.0データセットに対応する合成手書き文書画像
(ii)ベンタムQA:有名なベンタム写本コレクションの文書に定義された小さなQAペア。
また,OCRを用いて画像から認識されたテキストを用いた認識ベースアプローチと比較して,認識自由アプローチの徹底的な分析を行う。
この作業で提示されたデータセットはdocvqa.orgでダウンロードできる。
関連論文リスト
- DAPR: A Benchmark on Document-Aware Passage Retrieval [64.5769639710927]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot
Document-Level Question Answering [6.224211330728391]
研究者は貴重な技術知識を含む何千もの学術文書を作成した。
文書レベルの質問応答(QA)は、人間の提案する質問を適応して多様な知識を抽出できる柔軟なフレームワークを提供する。
本稿では,PDFからテキストを抽出する3段階の文書QAアプローチ,抽出したテキストからエビデンスを抽出して適切な文脈を形成する方法,文脈から知識を抽出して高品質な回答を返すためのQAを提案する。
論文 参考訳(メタデータ) (2022-10-04T23:33:52Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - V-Doc : Visual questions answers with Documents [1.6785823565413143]
V-Docは、文書画像とPDFを用いた質問応答ツールである。
抽出的および抽象的な問合せペアの生成と使用をサポートする。
論文 参考訳(メタデータ) (2022-05-27T02:38:09Z) - Recognition-free Question Answering on Handwritten Document Collections [3.0969191504482247]
手書き文書に対する無認識質問回答手法を提案する。
我々のアプローチは、挑戦的なBenthamQAとHW-SQuADデータセットにおいて、最先端の認識自由モデルよりも優れています。
論文 参考訳(メタデータ) (2022-02-12T14:47:44Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Knowledge-Aided Open-Domain Question Answering [58.712857964048446]
本稿では,知識支援型オープンドメインQA(KAQA)手法を提案する。
文書検索の際、質問と他の文書との関係を考慮し、候補文書を採点する。
回答の再ランク付けの間、候補の回答は、自身のコンテキストだけでなく、他の文書からのヒントを使って再ランクされる。
論文 参考訳(メタデータ) (2020-06-09T13:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。