Fugu-MT 論文翻訳(概要): DAPR: A Benchmark on Document-Aware Passage Retrieval

論文の概要: DAPR: A Benchmark on Document-Aware Passage Retrieval

arxiv url: http://arxiv.org/abs/2305.13915v2
Date: Mon, 12 Feb 2024 18:19:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 01:08:17.122231
Title: DAPR: A Benchmark on Document-Aware Passage Retrieval
Title（参考訳）: DAPR:Document-Aware Passage Retrievalのベンチマーク
Authors: Kexin Wang, Nils Reimers, Iryna Gurevych
Abstract要約: 我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。実験では,(1)BM25によるハイブリッド検索と(2)コンテキスト化された文節表現を用いて,文書コンテキストによる文節表現を通知することで,文書コンテキストでSoTAの文節検索を拡張した。
参考スコア（独自算出の注目度）: 64.5769639710927
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The work of neural retrieval so far focuses on ranking short texts and is challenged with long documents. There are many cases where the users want to find a relevant passage within a long document from a huge corpus, e.g. Wikipedia articles, research papers, etc. We propose and name this task \emph{Document-Aware Passage Retrieval} (DAPR). While analyzing the errors of the State-of-The-Art (SoTA) passage retrievers, we find the major errors (53.5\%) are due to missing document context. This drives us to build a benchmark for this task including multiple datasets from heterogeneous domains. In the experiments, we extend the SoTA passage retrievers with document context via (1) hybrid retrieval with BM25 and (2) contextualized passage representations, which inform the passage representation with document context. We find despite that hybrid retrieval performs the strongest on the mixture of the easy and the hard queries, it completely fails on the hard queries that require document-context understanding. On the other hand, contextualized passage representations (e.g. prepending document titles) achieve good improvement on these hard queries, but overall they also perform rather poorly. Our created benchmark enables future research on developing and comparing retrieval systems for the new task. The code and the data are available at https://https://github.com/UKPLab/arxiv2023-dapr.
Abstract（参考訳）: これまでのニューラル検索は、短いテキストのランク付けに重点を置いており、長い文書に挑戦している。ユーザは、ウィキペディアの記事や研究論文など、巨大なコーパスから、長いドキュメントの中で関連するパスを見つけたい場合が多い。本稿では,このタスクをDAPR (emph{Document-Aware Passage Retrieval}) と呼ぶ。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5\%)は文書コンテキストの欠如に起因する。これにより、異種ドメインからの複数のデータセットを含むこのタスクのベンチマークを構築することができます。実験では,(1)BM25によるハイブリッド検索と(2)コンテキスト化された文節表現を用いて,文書コンテキストによる文節表現を通知することで,文書コンテキストでSoTAの文節検索を拡張した。ハイブリット検索は,難解なクエリと難解なクエリが混在するクエリでは最強であるにもかかわらず,文書コンテキストの理解を必要とするハードクエリでは完全に失敗する。一方、コンテクスト化された文節表現(例えば、先行する文書のタイトル)は、これらの難解なクエリを良く改善するが、全体的な性能もかなり悪い。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。コードとデータはhttps://github.com/UKPLab/arxiv2023-dapr.comで公開されている。

関連論文リスト

ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [49.65993318863458]
ImpliRetは、推論の課題をドキュメントサイド処理にシフトするベンチマークである。我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文参考訳（メタデータ） (2025-06-17T11:08:29Z)
Hierarchical Retrieval with Evidence Curation for Open-Domain Financial Question Answering on Standardized Documents [17.506934704019226]
標準化されたドキュメントは、反復的なボイラープレートテキストや同様のテーブル構造など、同様のフォーマットを共有している。この類似性により、従来のRAGメソッドは、ほぼ重複したテキストを誤識別し、精度と完全性を損なう重複検索につながる。本稿では,これらの問題に対処するためのEvidence Curationフレームワークを用いた階層検索手法を提案する。
論文参考訳（メタデータ） (2025-05-26T11:08:23Z)
Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。検索者は文書の優先順位の過度な開始、短い文書、繰り返しのエンティティ、リテラルマッチングといった表面的なパターンにしばしば依存していることを示す。これらのバイアスは、検索優先の文書がLLMを誤解させるおそれのあるRAGのような下流アプリケーションに直接的な結果をもたらすことを示す。
論文参考訳（メタデータ） (2025-03-06T23:23:13Z)
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。 BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文参考訳（メタデータ） (2024-07-16T17:58:27Z)
PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文参考訳（メタデータ） (2023-09-16T04:29:05Z)
Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文参考訳（メタデータ） (2022-12-20T17:00:36Z)
CAPSTONE: Curriculum Sampling for Dense Retrieval with Document Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文参考訳（メタデータ） (2022-12-18T15:57:46Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
Few-Shot Document-Level Event Argument Extraction [2.680014762694412]
イベント引数抽出(EAE)は文レベルではよく研究されているが、文書レベルでは未探索である。 FewDocAE は Few-Shot Document-Level Event Argument extract ベンチマークである。
論文参考訳（メタデータ） (2022-09-06T03:57:23Z)
Query-Based Keyphrase Extraction from Long Documents [4.823229052465654]
本稿では,長文をチャンクすることでキーフレーズ抽出の問題を克服する。システムは、事前訓練されたBERTモデルを採用し、それを適応して、与えられたテキストがキーフレーズを形成する確率を推定する。
論文参考訳（メタデータ） (2022-05-11T10:29:30Z)
CSFCube -- A Test Collection of Computer Science Research Articles for Faceted Query by Example [43.01717754418893]
例によるフェーステッドクエリのタスクを紹介します。ユーザは、入力クエリドキュメントに加えて、より細かいアスペクトを指定することもできる。我々は,クエリ科学論文に類似した科学的論文を検索できるモデルを構想する。
論文参考訳（メタデータ） (2021-03-24T01:02:12Z)
Fine-Grained Relevance Annotations for Multi-Task Document Ranking and Question Answering [9.480648914353035]
本稿では,Fine-Grained Relevancesの新たなデータセットであるFiRAを紹介する。 TREC 2019のディープ・ラーニング・トラックのランク付けされた検索アノテーションは、すべての関連文書のパスレベルとワードグレードの関連アノテーションで拡張する。例えば、最近導入されたTKL文書ランキングモデルを評価し、TKLは長い文書に対して最先端の検索結果を示すが、多くの関連項目を見逃している。
論文参考訳（メタデータ） (2020-08-12T14:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。