論文の概要: Asking questions on handwritten document collections
- arxiv url: http://arxiv.org/abs/2110.00711v1
- Date: Sat, 2 Oct 2021 02:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 05:03:29.440689
- Title: Asking questions on handwritten document collections
- Title(参考訳): 手書き文書コレクションに関する質問
- Authors: Minesh Mathew, Lluis Gomez, Dimosthenis Karatzas and CV Jawahar
- Abstract要約: 本研究は手書き文書コレクションにおける質問回答(QA)の問題に対処する。
一般的なQAやVQA(Visual Question Answering)とは違い,回答は短いテキストである。
我々は,手書き文書や,堅牢なテキスト認識が困難な歴史的コレクションに,認識自由なアプローチが適していると主張している。
- 参考スコア(独自算出の注目度): 35.85762649504866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work addresses the problem of Question Answering (QA) on handwritten
document collections. Unlike typical QA and Visual Question Answering (VQA)
formulations where the answer is a short text, we aim to locate a document
snippet where the answer lies. The proposed approach works without recognizing
the text in the documents. We argue that the recognition-free approach is
suitable for handwritten documents and historical collections where robust text
recognition is often difficult. At the same time, for human users, document
image snippets containing answers act as a valid alternative to textual
answers. The proposed approach uses an off-the-shelf deep embedding network
which can project both textual words and word images into a common sub-space.
This embedding bridges the textual and visual domains and helps us retrieve
document snippets that potentially answer a question. We evaluate results of
the proposed approach on two new datasets: (i) HW-SQuAD: a synthetic,
handwritten document image counterpart of SQuAD1.0 dataset and (ii) BenthamQA:
a smaller set of QA pairs defined on documents from the popular Bentham
manuscripts collection. We also present a thorough analysis of the proposed
recognition-free approach compared to a recognition-based approach which uses
text recognized from the images using an OCR. Datasets presented in this work
are available to download at docvqa.org
- Abstract(参考訳): 本研究は手書き文書コレクションにおける質問回答(QA)の問題に対処する。
一般的なqaや視覚質問応答(vqa)とは異なり、私たちは答えが短いテキストである文書スニペットを見つけることを目指しています。
提案手法は文書中のテキストを認識せずに機能する。
テキスト認識が堅牢な場合が多い手書き文書や歴史資料には認識フリーアプローチが適していると主張する。
同時に、人間のユーザにとって、回答を含む文書イメージスニペットは、テキスト回答の有効な代替手段として機能する。
提案手法では,テキストワードと単語イメージの両方を共通部分空間に投影する,既製のディープ埋め込みネットワークを用いている。
この埋め込みはテキストドメインとビジュアルドメインをブリッジし、質問に答える可能性のあるドキュメントスニペットの検索を支援する。
2つの新しいデータセットに対する提案手法の結果を評価する。
(i)HW-SQuAD:SQuAD1.0データセットに対応する合成手書き文書画像
(ii)ベンタムQA:有名なベンタム写本コレクションの文書に定義された小さなQAペア。
また,OCRを用いて画像から認識されたテキストを用いた認識ベースアプローチと比較して,認識自由アプローチの徹底的な分析を行う。
この作業で提示されたデータセットはdocvqa.orgでダウンロードできる。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot
Document-Level Question Answering [6.224211330728391]
研究者は貴重な技術知識を含む何千もの学術文書を作成した。
文書レベルの質問応答(QA)は、人間の提案する質問を適応して多様な知識を抽出できる柔軟なフレームワークを提供する。
本稿では,PDFからテキストを抽出する3段階の文書QAアプローチ,抽出したテキストからエビデンスを抽出して適切な文脈を形成する方法,文脈から知識を抽出して高品質な回答を返すためのQAを提案する。
論文 参考訳(メタデータ) (2022-10-04T23:33:52Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - V-Doc : Visual questions answers with Documents [1.6785823565413143]
V-Docは、文書画像とPDFを用いた質問応答ツールである。
抽出的および抽象的な問合せペアの生成と使用をサポートする。
論文 参考訳(メタデータ) (2022-05-27T02:38:09Z) - Recognition-free Question Answering on Handwritten Document Collections [3.0969191504482247]
手書き文書に対する無認識質問回答手法を提案する。
我々のアプローチは、挑戦的なBenthamQAとHW-SQuADデータセットにおいて、最先端の認識自由モデルよりも優れています。
論文 参考訳(メタデータ) (2022-02-12T14:47:44Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Knowledge-Aided Open-Domain Question Answering [58.712857964048446]
本稿では,知識支援型オープンドメインQA(KAQA)手法を提案する。
文書検索の際、質問と他の文書との関係を考慮し、候補文書を採点する。
回答の再ランク付けの間、候補の回答は、自身のコンテキストだけでなく、他の文書からのヒントを使って再ランクされる。
論文 参考訳(メタデータ) (2020-06-09T13:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。