論文の概要: Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot
Document-Level Question Answering
- arxiv url: http://arxiv.org/abs/2210.01959v3
- Date: Mon, 11 Dec 2023 22:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 21:04:48.010811
- Title: Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot
Document-Level Question Answering
- Title(参考訳): Detect, Retrieve, Comprehend: ゼロショット文書レベルの質問回答のための柔軟なフレームワーク
- Authors: Tavish McDonald, Brian Tsan, Amar Saini, Juanita Ordonez, Luis
Gutierrez, Phan Nguyen, Blake Mason, Brenda Ng
- Abstract要約: 研究者は貴重な技術知識を含む何千もの学術文書を作成した。
文書レベルの質問応答(QA)は、人間の提案する質問を適応して多様な知識を抽出できる柔軟なフレームワークを提供する。
本稿では,PDFからテキストを抽出する3段階の文書QAアプローチ,抽出したテキストからエビデンスを抽出して適切な文脈を形成する方法,文脈から知識を抽出して高品質な回答を返すためのQAを提案する。
- 参考スコア(独自算出の注目度): 6.224211330728391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers produce thousands of scholarly documents containing valuable
technical knowledge. The community faces the laborious task of reading these
documents to identify, extract, and synthesize information. To automate
information gathering, document-level question answering (QA) offers a flexible
framework where human-posed questions can be adapted to extract diverse
knowledge. Finetuning QA systems requires access to labeled data (tuples of
context, question and answer). However, data curation for document QA is
uniquely challenging because the context (i.e. answer evidence passage) needs
to be retrieved from potentially long, ill-formatted documents. Existing QA
datasets sidestep this challenge by providing short, well-defined contexts that
are unrealistic in real-world applications. We present a three-stage document
QA approach: (1) text extraction from PDF; (2) evidence retrieval from
extracted texts to form well-posed contexts; (3) QA to extract knowledge from
contexts to return high-quality answers -- extractive, abstractive, or Boolean.
Using QASPER for evaluation, our detect-retrieve-comprehend (DRC) system
achieves a +7.19 improvement in Answer-F1 over existing baselines while
delivering superior context selection. Our results demonstrate that DRC holds
tremendous promise as a flexible framework for practical scientific document
QA.
- Abstract(参考訳): 研究者は貴重な技術知識を含む何千もの学術文書を作成した。
コミュニティはこれらの文書を読み、情報を識別し、抽出し、合成する手間のかかる業務に直面している。
情報収集を自動化するために、文書レベルの質問応答(QA)は、人為的な質問に適応して多様な知識を抽出できる柔軟なフレームワークを提供する。
微調整されたQAシステムはラベル付きデータ(コンテキスト、質問、回答のタプル)にアクセスする必要がある。
しかし、文書QAのデータキュレーションは、コンテキスト(すなわち、答えのエビデンスパス)が、潜在的に長く、未フォーマットの文書から取り出さなければならないため、独特に難しい。
既存のQAデータセットは、現実世界のアプリケーションでは非現実的な、短く、明確に定義されたコンテキストを提供することによって、この課題を後押しする。
本稿では,(1)PDFからのテキスト抽出,(2)抽出したテキストから証拠を抽出して適切な文脈を形成する,(3)文脈から知識を抽出して高品質な回答を返す,という3段階の文書QAアプローチを提案する。
評価にQASPERを用いることで,既存のベースラインに対するAnswer-F1の+7.19の改善を実現し,コンテキスト選択に優れる。
以上の結果から,DRCは実用科学的文書QAの柔軟な枠組みとして非常に有望であることが示された。
関連論文リスト
- Contri(e)ve: Context + Retrieve for Scholarly Question Answering [0.0]
本稿では,オープンソースのLarge Language Model (LLM): Scholarly-QALDデータセット用のLlama3.1を提案する。
まず、異なる構造化データソースと非構造化データソースから質問に関連するコンテキストを抽出する。
第2に,LLMの情報検索性能を向上させるために,プロンプトエンジニアリングを実装した。
論文 参考訳(メタデータ) (2024-09-13T17:38:47Z) - JDocQA: Japanese Document Question Answering Dataset for Generative Language Models [15.950718839723027]
本稿では,大規模文書ベースのQAデータセットであるJDocQAについて紹介する。
PDF形式で5,504件の文書と日本語で11,600件の質問・回答文からなる。
現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。
論文 参考訳(メタデータ) (2024-03-28T14:22:54Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - V-Doc : Visual questions answers with Documents [1.6785823565413143]
V-Docは、文書画像とPDFを用いた質問応答ツールである。
抽出的および抽象的な問合せペアの生成と使用をサポートする。
論文 参考訳(メタデータ) (2022-05-27T02:38:09Z) - AnswerQuest: A System for Generating Question-Answer Items from
Multi-Paragraph Documents [1.0896567381206712]
本稿では,質問応答タスク(QA)と質問生成タスク(QG)を統合し,複数のパラグラフ文書の内容を伝えるQ&A項目を生成するシステムについてデモする。
両タスクの改善をもたらすQAとQGに関するいくつかの実験を報告し、テキストのQ&A項目のリストを作成するための相互作用を評価します。
論文 参考訳(メタデータ) (2021-03-05T17:36:04Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。