論文の概要: JDocQA: Japanese Document Question Answering Dataset for Generative Language Models
- arxiv url: http://arxiv.org/abs/2403.19454v1
- Date: Thu, 28 Mar 2024 14:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 16:04:18.889857
- Title: JDocQA: Japanese Document Question Answering Dataset for Generative Language Models
- Title(参考訳): JDocQA:ジェネレーティブ言語モデルのための日本語文書質問回答データセット
- Authors: Eri Onami, Shuhei Kurita, Taiki Miyanishi, Taro Watanabe,
- Abstract要約: 本稿では,大規模文書ベースのQAデータセットであるJDocQAについて紹介する。
PDF形式で5,504件の文書と日本語で11,600件の質問・回答文からなる。
現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。
- 参考スコア(独自算出の注目度): 15.950718839723027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document question answering is a task of question answering on given documents such as reports, slides, pamphlets, and websites, and it is a truly demanding task as paper and electronic forms of documents are so common in our society. This is known as a quite challenging task because it requires not only text understanding but also understanding of figures and tables, and hence visual question answering (VQA) methods are often examined in addition to textual approaches. We introduce Japanese Document Question Answering (JDocQA), a large-scale document-based QA dataset, essentially requiring both visual and textual information to answer questions, which comprises 5,504 documents in PDF format and annotated 11,600 question-and-answer instances in Japanese. Each QA instance includes references to the document pages and bounding boxes for the answer clues. We incorporate multiple categories of questions and unanswerable questions from the document for realistic question-answering applications. We empirically evaluate the effectiveness of our dataset with text-based large language models (LLMs) and multimodal models. Incorporating unanswerable questions in finetuning may contribute to harnessing the so-called hallucination generation.
- Abstract(参考訳): 文献質問応答は, レポート, スライド, パンフレット, ウェブサイトなど, 与えられた文書に対する質問応答のタスクであり, 紙や電子文書の形式が社会で一般的であることから, 真に要求される課題である。
これは、テキスト理解だけでなく、数字や表の理解も必要であり、視覚的質問応答法(VQA)がテキストのアプローチに加えてしばしば検討されるため、非常に難しいタスクとして知られている。
本稿では,大規模文書ベースのQAデータセットであるJDocQAについて,PDF形式で5,504の文書と日本語で注釈付き11,600の質問・回答のインスタンスからなる,視覚情報とテキスト情報の両方を必要とする。
各QAインスタンスには、ドキュメントページへの参照と、回答のヒントのためのバウンディングボックスが含まれている。
現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。
我々は,テキストベース大規模言語モデル(LLM)とマルチモーダルモデルを用いて,データセットの有効性を実証的に評価した。
難解な質問を微調整に組み込むことは、いわゆる幻覚発生の活用に寄与する可能性がある。
関連論文リスト
- PCoQA: Persian Conversational Question Answering Dataset [12.07607688189035]
PCoQAデータセットは、9,026のコンテキスト駆動質問を含む情報検索ダイアログを含むリソースである。
PCoQAは、以前の質問応答データセットと比較して、新しい課題を示すように設計されている。
本稿では,PCoQAデータセットを包括的に提示するだけでなく,各種ベンチマークモデルの性能も報告する。
論文 参考訳(メタデータ) (2023-12-07T15:29:34Z) - DCQA: Document-Level Chart Question Answering towards Complex Reasoning
and Common-Sense Understanding [19.713647367008143]
文書レベルの質問応答(DCQA)という新しいタスクを導入する。
新たに開発されたベンチマークデータセットは、チャートを幅広いスタイルで統合した50,010の合成文書からなる。
本稿では,テーブルデータ,リッチな色集合,および基本的な質問テンプレートを利用する強力な質問応答生成エンジンの開発について述べる。
論文 参考訳(メタデータ) (2023-10-29T11:38:08Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - V-Doc : Visual questions answers with Documents [1.6785823565413143]
V-Docは、文書画像とPDFを用いた質問応答ツールである。
抽出的および抽象的な問合せペアの生成と使用をサポートする。
論文 参考訳(メタデータ) (2022-05-27T02:38:09Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。