論文の概要: V-Doc : Visual questions answers with Documents
- arxiv url: http://arxiv.org/abs/2205.13724v2
- Date: Tue, 31 May 2022 03:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 11:43:37.980452
- Title: V-Doc : Visual questions answers with Documents
- Title(参考訳): V-Doc : 文書による視覚的質問
- Authors: Yihao Ding, Zhe Huang, Runlin Wang, Yanhang Zhang, Xianru Chen,
Yuzhong Ma, Hyunsuk Chung and Soyeon Caren Han
- Abstract要約: V-Docは、文書画像とPDFを用いた質問応答ツールである。
抽出的および抽象的な問合せペアの生成と使用をサポートする。
- 参考スコア(独自算出の注目度): 1.6785823565413143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose V-Doc, a question-answering tool using document images and PDF,
mainly for researchers and general non-deep learning experts looking to
generate, process, and understand the document visual question answering tasks.
The V-Doc supports generating and using both extractive and abstractive
question-answer pairs using documents images. The extractive QA selects a
subset of tokens or phrases from the document contents to predict the answers,
while the abstractive QA recognises the language in the content and generates
the answer based on the trained model. Both aspects are crucial to
understanding the documents, especially in an image format. We include a
detailed scenario of question generation for the abstractive QA task. V-Doc
supports a wide range of datasets and models, and is highly extensible through
a declarative, framework-agnostic platform.
- Abstract(参考訳): 本稿では,文書画像とPDFを用いた質問応答ツールであるV-Docを提案する。
V-Docは、文書イメージを使用して抽出的および抽象的な問合せペアの生成と使用をサポートする。
抽出QAは、文書内容からトークンまたはフレーズのサブセットを選択して回答を予測する一方、抽象QAは内容中の言語を認識し、訓練されたモデルに基づいて回答を生成する。
どちらの側面も、特に画像フォーマットで文書を理解するのに不可欠である。
抽象的なQAタスクに対する質問生成の詳細なシナリオを含める。
V-Docは幅広いデータセットとモデルをサポートし、宣言的なフレームワークに依存しないプラットフォームを通じて非常に拡張性が高い。
関連論文リスト
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - JDocQA: Japanese Document Question Answering Dataset for Generative Language Models [15.950718839723027]
本稿では,大規模文書ベースのQAデータセットであるJDocQAについて紹介する。
PDF形式で5,504件の文書と日本語で11,600件の質問・回答文からなる。
現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。
論文 参考訳(メタデータ) (2024-03-28T14:22:54Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Workshop on Document Intelligence Understanding [3.2929609168290543]
このワークショップは、ドキュメントインテリジェンス分野の研究者と業界開発者を集結させることを目的としている。
また、最近導入されたドキュメントレベルのVQAデータセットであるPDFVQAに関するデータ課題もリリースしました。
論文 参考訳(メタデータ) (2023-07-31T02:14:25Z) - PDFVQA: A New Dataset for Real-World VQA on PDF Documents [2.105395241374678]
文書ベースのビジュアル質問回答は、自然言語質問の条件下での文書イメージの文書理解を検証する。
我々のPDF-VQAデータセットは、単一のドキュメントページ上の制限を、複数のページの全ドキュメントに対して質問する新しいスケールに拡張する。
論文 参考訳(メタデータ) (2023-04-13T12:28:14Z) - Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot
Document-Level Question Answering [6.224211330728391]
研究者は貴重な技術知識を含む何千もの学術文書を作成した。
文書レベルの質問応答(QA)は、人間の提案する質問を適応して多様な知識を抽出できる柔軟なフレームワークを提供する。
本稿では,PDFからテキストを抽出する3段階の文書QAアプローチ,抽出したテキストからエビデンスを抽出して適切な文脈を形成する方法,文脈から知識を抽出して高品質な回答を返すためのQAを提案する。
論文 参考訳(メタデータ) (2022-10-04T23:33:52Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Asking questions on handwritten document collections [35.85762649504866]
本研究は手書き文書コレクションにおける質問回答(QA)の問題に対処する。
一般的なQAやVQA(Visual Question Answering)とは違い,回答は短いテキストである。
我々は,手書き文書や,堅牢なテキスト認識が困難な歴史的コレクションに,認識自由なアプローチが適していると主張している。
論文 参考訳(メタデータ) (2021-10-02T02:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。