論文の概要: Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot
Document-Level Question Answering
- arxiv url: http://arxiv.org/abs/2210.01959v1
- Date: Tue, 4 Oct 2022 23:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:31:22.127035
- Title: Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot
Document-Level Question Answering
- Title(参考訳): Detect, Retrieve, Comprehend: ゼロショット文書レベルの質問回答のための柔軟なフレームワーク
- Authors: Tavish McDonald, Brian Tsan, Amar Saini, Juanita Ordonez, Luis
Gutierrez, Phan Nguyen, Blake Mason, Brenda Ng
- Abstract要約: 質問応答(QA)は、人間の提案する質問が多様な知識を抽出するために適応できる柔軟なフレームワークを提供する。
既存のQAデータセットは、現実世界のアプリケーションでは非現実的な、短く、明確に定義されたコンテキストを提供することによって、この課題を後押しする。
本稿では,PDFからテキストを抽出する3段階の文書QAアプローチ,抽出したテキストからエビデンスを抽出して適切な文脈を形成する方法,文脈から知識を抽出して高品質な回答を返すためのQAを提案する。
- 参考スコア(独自算出の注目度): 3.214377927241889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Businesses generate thousands of documents that communicate their strategic
vision and provide details of key products, services, entities, and processes.
Knowledge workers then face the laborious task of reading these documents to
identify, extract, and synthesize information relevant to their organizational
goals. To automate information gathering, question answering (QA) offers a
flexible framework where human-posed questions can be adapted to extract
diverse knowledge. Finetuning QA systems requires access to labeled data
(tuples of context, question, and answer). However, data curation for document
QA is uniquely challenging because the context (i.e., answer evidence passage)
needs to be retrieved from potentially long, ill-formatted documents. Existing
QA datasets sidestep this challenge by providing short, well-defined contexts
that are unrealistic in real-world applications. We present a three-stage
document QA approach: (1) text extraction from PDF; (2) evidence retrieval from
extracted texts to form well-posed contexts; (3) QA to extract knowledge from
contexts to return high-quality answers - extractive, abstractive, or Boolean.
Using QASPER as a surrogate to our proprietary data, our
detect-retrieve-comprehend (DRC) system achieves a +6.25 improvement in
Answer-F1 over existing baselines while delivering superior context selection.
Our results demonstrate that DRC holds tremendous promise as a flexible
framework for practical document QA.
- Abstract(参考訳): 企業は戦略的なビジョンを伝える何千ものドキュメントを生成し、主要な製品、サービス、エンティティ、プロセスの詳細を提供する。
知識労働者はこれらの文書を読み、組織的目標に関連する情報を特定し、抽出し、合成する。
情報収集を自動化するために、質問応答(QA)は、人為的な質問に適応して多様な知識を抽出できる柔軟な枠組みを提供する。
微調整されたQAシステムはラベル付きデータ(コンテキスト、質問、回答のタプル)にアクセスする必要がある。
しかし、文書QAのデータキュレーションは、コンテキスト(すなわち、答えのエビデンスパス)が、潜在的に長く、未フォーマットの文書から取り出さなければならないため、ユニークな難題である。
既存のQAデータセットは、現実世界のアプリケーションでは非現実的な、短く、明確に定義されたコンテキストを提供することによって、この課題を後押しする。
本稿では,(1)PDFからのテキスト抽出,(2)抽出したテキストから証拠を抽出して適切な文脈を形成する,(3)文脈から知識を抽出して高品質な回答を返す,という3段階の文書QAアプローチを提案する。
QASPERをプロプライエタリなデータのサロゲートとして使用することにより,既存のベースラインに対するAnswer-F1の+6.25の改善を実現し,優れたコンテキスト選択を実現する。
我々の結果は、DRCが実用的な文書QAのための柔軟なフレームワークとして非常に有望であることを示している。
関連論文リスト
- PeerQA: A Scientific Question Answering Dataset from Peer Reviews [51.95579001315713]
実世界の科学的、文書レベルの質問回答データセットであるPeerQAを提示する。
データセットには208の学術論文から579のQAペアが含まれており、MLとNLPが多数を占めている。
収集したデータセットを詳細に分析し、3つのタスクのベースラインシステムを確立する実験を行う。
論文 参考訳(メタデータ) (2025-02-19T12:24:46Z) - Contri(e)ve: Context + Retrieve for Scholarly Question Answering [0.0]
本稿では,オープンソースのLarge Language Model (LLM): Scholarly-QALDデータセット用のLlama3.1を提案する。
まず、異なる構造化データソースと非構造化データソースから質問に関連するコンテキストを抽出する。
第2に,LLMの情報検索性能を向上させるために,プロンプトエンジニアリングを実装した。
論文 参考訳(メタデータ) (2024-09-13T17:38:47Z) - JDocQA: Japanese Document Question Answering Dataset for Generative Language Models [15.950718839723027]
本稿では,大規模文書ベースのQAデータセットであるJDocQAについて紹介する。
PDF形式で5,504件の文書と日本語で11,600件の質問・回答文からなる。
現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。
論文 参考訳(メタデータ) (2024-03-28T14:22:54Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - V-Doc : Visual questions answers with Documents [1.6785823565413143]
V-Docは、文書画像とPDFを用いた質問応答ツールである。
抽出的および抽象的な問合せペアの生成と使用をサポートする。
論文 参考訳(メタデータ) (2022-05-27T02:38:09Z) - AnswerQuest: A System for Generating Question-Answer Items from
Multi-Paragraph Documents [1.0896567381206712]
本稿では,質問応答タスク(QA)と質問生成タスク(QG)を統合し,複数のパラグラフ文書の内容を伝えるQ&A項目を生成するシステムについてデモする。
両タスクの改善をもたらすQAとQGに関するいくつかの実験を報告し、テキストのQ&A項目のリストを作成するための相互作用を評価します。
論文 参考訳(メタデータ) (2021-03-05T17:36:04Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。