論文の概要: DAPR: A Benchmark on Document-Aware Passage Retrieval
- arxiv url: http://arxiv.org/abs/2305.13915v1
- Date: Tue, 23 May 2023 10:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:58:02.826914
- Title: DAPR: A Benchmark on Document-Aware Passage Retrieval
- Title(参考訳): DAPR:Document-Aware Passage Retrievalのベンチマーク
- Authors: Kexin Wang, Nils Reimers, Iryna Gurevych
- Abstract要約: 我々は,このタスクを文書認識パス検索 (DAPR) と呼ぶ。
実験では、最先端のニューラルパスレトリバーを、異なるアプローチで文書レベルのコンテキストで拡張する。
総合的に最良であるハイブリッド検索システムは、DAPRタスクを極端に改善するだけで、ドキュメント検索タスクを著しく改善することができる。
- 参考スコア(独自算出の注目度): 66.95899226720647
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent neural retrieval mainly focuses on ranking short texts and is
challenged with long documents. Existing work mainly evaluates either ranking
passages or whole documents. However, there are many cases where the users want
to find a relevant passage within a long document from a huge corpus, e.g.
legal cases, research papers, etc. In this scenario, the passage often provides
little document context and thus challenges the current approaches to finding
the correct document and returning accurate results. To fill this gap, we
propose and name this task Document-Aware Passage Retrieval (DAPR) and build a
benchmark including multiple datasets from various domains, covering both DAPR
and whole-document retrieval. In experiments, we extend the state-of-the-art
neural passage retrievers with document-level context via different approaches
including prepending document summary, pooling over passage representations,
and hybrid retrieval with BM25. The hybrid-retrieval systems, the overall best,
can only improve on the DAPR tasks marginally while significantly improving on
the document-retrieval tasks. This motivates further research in developing
better retrieval systems for the new task. The code and the data are available
at https://github.com/kwang2049/dapr
- Abstract(参考訳): 最近のニューラルネットワーク検索は主に短いテキストのランク付けに焦点を当てており、長い文書に挑戦している。
既存の作品は、主にランク付けや文書全体を評価している。
しかし、巨大なコーパス(例えば、訴訟、研究論文など)から、長い文書の中に関連性のあるパスを見つけたい場合が多い。
このシナリオでは、パッセージはドキュメントのコンテキストをほとんど提供せず、正しいドキュメントを見つけ、正しい結果を返す現在のアプローチに挑戦します。
このギャップを埋めるために,このタスクをdapr(document-aware passage retrieval)と命名し,daprと全文書検索の両方をカバーする,さまざまなドメインの複数のデータセットを含むベンチマークを構築する。
実験では,先行文書要約,パス表現のプール化,bm25によるハイブリッド検索など,さまざまなアプローチにより,最先端のニューラルパスレトリバーを文書レベルコンテキストで拡張する。
総合的に最良であるハイブリッド検索システムは、DAPRタスクを極端に改善するだけで、ドキュメント検索タスクを著しく改善することができる。
これにより、新しいタスクのためのより良い検索システムを開発するためのさらなる研究が促進される。
コードとデータはhttps://github.com/kwang2049/daprで入手できる。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Few-Shot Document-Level Event Argument Extraction [2.680014762694412]
イベント引数抽出(EAE)は文レベルではよく研究されているが、文書レベルでは未探索である。
FewDocAE は Few-Shot Document-Level Event Argument extract ベンチマークである。
論文 参考訳(メタデータ) (2022-09-06T03:57:23Z) - Query-Based Keyphrase Extraction from Long Documents [4.823229052465654]
本稿では,長文をチャンクすることでキーフレーズ抽出の問題を克服する。
システムは、事前訓練されたBERTモデルを採用し、それを適応して、与えられたテキストがキーフレーズを形成する確率を推定する。
論文 参考訳(メタデータ) (2022-05-11T10:29:30Z) - CSFCube -- A Test Collection of Computer Science Research Articles for
Faceted Query by Example [43.01717754418893]
例によるフェーステッドクエリのタスクを紹介します。
ユーザは、入力クエリドキュメントに加えて、より細かいアスペクトを指定することもできる。
我々は,クエリ科学論文に類似した科学的論文を検索できるモデルを構想する。
論文 参考訳(メタデータ) (2021-03-24T01:02:12Z) - Fine-Grained Relevance Annotations for Multi-Task Document Ranking and
Question Answering [9.480648914353035]
本稿では,Fine-Grained Relevancesの新たなデータセットであるFiRAを紹介する。
TREC 2019のディープ・ラーニング・トラックのランク付けされた検索アノテーションは、すべての関連文書のパスレベルとワードグレードの関連アノテーションで拡張する。
例えば、最近導入されたTKL文書ランキングモデルを評価し、TKLは長い文書に対して最先端の検索結果を示すが、多くの関連項目を見逃している。
論文 参考訳(メタデータ) (2020-08-12T14:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。