論文の概要: A Neural Model for Joint Document and Snippet Ranking in Question
Answering for Large Document Collections
- arxiv url: http://arxiv.org/abs/2106.08908v1
- Date: Wed, 16 Jun 2021 16:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 22:03:27.335283
- Title: A Neural Model for Joint Document and Snippet Ranking in Question
Answering for Large Document Collections
- Title(参考訳): 大文書集合に対する質問応答における結合文書とスニペットランキングのニューラルモデル
- Authors: Dimitris Pappas and Ion Androutsopoulos
- Abstract要約: 共同文書とスニペットランキングのためのアーキテクチャを提案する。
アーキテクチャは汎用的であり、ニューラルテキスト関連ローダで使用することができる。
BIOASQのバイオメディカルデータを用いた実験により,我々の関節モデルはスニペット検索においてパイプラインを大幅に上回っていることがわかった。
- 参考スコア(独自算出の注目度): 9.503056487990959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question answering (QA) systems for large document collections typically use
pipelines that (i) retrieve possibly relevant documents, (ii) re-rank them,
(iii) rank paragraphs or other snippets of the top-ranked documents, and (iv)
select spans of the top-ranked snippets as exact answers. Pipelines are
conceptually simple, but errors propagate from one component to the next,
without later components being able to revise earlier decisions. We present an
architecture for joint document and snippet ranking, the two middle stages,
which leverages the intuition that relevant documents have good snippets and
good snippets come from relevant documents. The architecture is general and can
be used with any neural text relevance ranker. We experiment with two main
instantiations of the architecture, based on POSIT-DRMM (PDRMM) and a
BERT-based ranker. Experiments on biomedical data from BIOASQ show that our
joint models vastly outperform the pipelines in snippet retrieval, the main
goal for QA, with fewer trainable parameters, also remaining competitive in
document retrieval. Furthermore, our joint PDRMM-based model is competitive
with BERT-based models, despite using orders of magnitude fewer parameters.
These claims are also supported by human evaluation on two test batches of
BIOASQ. To test our key findings on another dataset, we modified the Natural
Questions dataset so that it can also be used for document and snippet
retrieval. Our joint PDRMM-based model again outperforms the corresponding
pipeline in snippet retrieval on the modified Natural Questions dataset, even
though it performs worse than the pipeline in document retrieval. We make our
code and the modified Natural Questions dataset publicly available.
- Abstract(参考訳): 質問応答 (QA) システムは通常、 (i) 関連文書を検索するパイプラインを使用し、 (ii) 関連文書を再ランク付けし、 (iii) 上位文書の段落や他のスニペットをランク付けし、 (iv) 上位文書のスニペットを正確な回答として選択する。
パイプラインは概念的には単純だが、エラーは1つのコンポーネントから次のコンポーネントへと伝播する。
関連文書が良好なスニペットと良好なスニペットを持つという直感を生かした2つの中間段階である,共同文書とスニペットランキングのためのアーキテクチャを提案する。
アーキテクチャは汎用的であり、ニューラルテキスト関連ローダで使用することができる。
本稿では, POSIT-DRMM (PDRMM) とBERTをベースとしたランカを用いたアーキテクチャの2つの主要なインスタンス化実験を行った。
bioasqによるバイオメディカルデータによる実験では、私たちの共同モデルが、トレーニング可能なパラメータの少ないqaの主な目標であるスニペット検索においてパイプラインを大きく上回っていることが分かりました。
さらに, pdrmmモデルとbertモデルとの競合性は高いが, パラメータは桁違いに小さい。
これらの主張は、BIOASQの2つのテストバッチに対する人間の評価でも支持されている。
別のデータセットで重要な結果をテストするために、Natural Questionsデータセットを変更して、ドキュメント検索やスニペット検索にも使用できるようにしました。
我々の共同PDRMMベースのモデルは、文書検索のパイプラインよりもパフォーマンスが悪くても、修正されたNatural Questionsデータセット上でスニペット検索において、対応するパイプラインを再び上回ります。
コードと修正されたNatural Questionsデータセットを公開しています。
関連論文リスト
- List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for
End-to-end Document Pair Extraction [29.620120164447737]
ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。
既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。
本稿では,ライン抽出,ライングルーピング,エンティティリンクという3つの並列サブタスクを組み込んだ,統一パイプラインで文書ペア抽出を行うPEneoについて紹介する。
論文 参考訳(メタデータ) (2024-01-07T12:48:07Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Literature Retrieval for Precision Medicine with Neural Matching and
Faceted Summarization [2.978663539080876]
本稿では,ニューラルクエリ文書マッチングとテキスト要約を組み合わせた文書分類手法を提案する。
NISTのTREC-PMトラックデータセットを用いた評価により,本モデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-12-17T02:01:32Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。