論文の概要: A Question Answering Framework for Decontextualizing User-facing
Snippets from Scientific Documents
- arxiv url: http://arxiv.org/abs/2305.14772v3
- Date: Fri, 1 Dec 2023 00:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 18:44:35.947281
- Title: A Question Answering Framework for Decontextualizing User-facing
Snippets from Scientific Documents
- Title(参考訳): 科学的文書からのユーザ指向スニペットの非コンテキスト化のための質問応答フレームワーク
- Authors: Benjamin Newman, Luca Soldaini, Raymond Fok, Arman Cohan, Kyle Lo
- Abstract要約: 言語モデルを使って、科学文書からスニペットを書き直して、自分で読むことができます。
本稿では,タスクを質問生成,質問応答,書き直しの3段階に分割するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.39561727838956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world applications (e.g., note taking, search) require extracting a
sentence or paragraph from a document and showing that snippet to a human
outside of the source document. Yet, users may find snippets difficult to
understand as they lack context from the original document. In this work, we
use language models to rewrite snippets from scientific documents to be read on
their own. First, we define the requirements and challenges for this
user-facing decontextualization task, such as clarifying where edits occur and
handling references to other documents. Second, we propose a framework that
decomposes the task into three stages: question generation, question answering,
and rewriting. Using this framework, we collect gold decontextualizations from
experienced scientific article readers. We then conduct a range of experiments
across state-of-the-art commercial and open-source language models to identify
how to best provide missing-but-relevant information to models for our task.
Finally, we develop QaDecontext, a simple prompting strategy inspired by our
framework that improves over end-to-end prompting. We conclude with analysis
that finds, while rewriting is easy, question generation and answering remain
challenging for today's models.
- Abstract(参考訳): 多くの現実世界のアプリケーション(メモ取り、検索など)では、文書から文や段落を抽出し、そのスニペットをソース文書の外の人間に示す必要がある。
しかし、ユーザーは元のドキュメントのコンテキストがないため、スニペットを理解するのが難しくなるかもしれない。
本研究では,言語モデルを用いて科学文書のスニペットを書き換え,独自に読む。
まず、編集箇所の明確化や、他の文書への参照処理など、このユーザ向け非コンテクスト化タスクの要件と課題を定義します。
第2に,タスクを質問生成,質問応答,書き直しという3つの段階に分解するフレームワークを提案する。
このフレームワークを使って、経験豊富な科学記事読者から金のデコンテクスト化を収集する。
次に、現在最先端の商用およびオープンソース言語モデルにまたがるさまざまな実験を行い、タスクのモデルに、欠落するが関連のある情報を最も適切に提供する方法を特定します。
最後に、私たちのフレームワークに触発されたシンプルなプロンプト戦略であるQaDecontextを開発し、エンドツーエンドのプロンプトを改善する。
私たちは、書き直しが簡単であるのに対して、今日のモデルでは質問生成と回答は難しいまま、分析で結論付けます。
関連論文リスト
- Contri(e)ve: Context + Retrieve for Scholarly Question Answering [0.0]
本稿では,オープンソースのLarge Language Model (LLM): Scholarly-QALDデータセット用のLlama3.1を提案する。
まず、異なる構造化データソースと非構造化データソースから質問に関連するコンテキストを抽出する。
第2に,LLMの情報検索性能を向上させるために,プロンプトエンジニアリングを実装した。
論文 参考訳(メタデータ) (2024-09-13T17:38:47Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot
Document-Level Question Answering [6.224211330728391]
研究者は貴重な技術知識を含む何千もの学術文書を作成した。
文書レベルの質問応答(QA)は、人間の提案する質問を適応して多様な知識を抽出できる柔軟なフレームワークを提供する。
本稿では,PDFからテキストを抽出する3段階の文書QAアプローチ,抽出したテキストからエビデンスを抽出して適切な文脈を形成する方法,文脈から知識を抽出して高品質な回答を返すためのQAを提案する。
論文 参考訳(メタデータ) (2022-10-04T23:33:52Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Design Challenges for a Multi-Perspective Search Engine [44.48345943046946]
我々は、新しい視点指向文書検索パラダイムについて研究する。
目的を達成するために,自然言語理解の課題を議論し,評価する。
我々は,プロトタイプシステムを用いて,我々のパラダイムの有用性を評価する。
論文 参考訳(メタデータ) (2021-12-15T18:59:57Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。