Fugu-MT 論文翻訳(概要): CoverageBench: Evaluating Information Coverage across Tasks and Domains

論文の概要: CoverageBench: Evaluating Information Coverage across Tasks and Domains

arxiv url: http://arxiv.org/abs/2603.20034v1
Date: Fri, 20 Mar 2026 15:20:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 19:48:39.20174
Title: CoverageBench: Evaluating Information Coverage across Tasks and Domains
Title（参考訳）: CoverageBench: タスクとドメイン間での情報カバレッジを評価する
Authors: Saron Samuel, Andrew Yates, Dawn Lawrie, Ian Soboroff, Trevor Adriaanse, Benjamin Van Durme, Eugene Yang,
Abstract要約: 情報カバレッジは、特に検索システムが生成モデルと統合されている場合、検索において中心的な側面である。 Web検索における多様性ランキングの概念を中心に開発されたテストコレクションには、Webドメインにおけるカバレッジの概念をサポートする複数の側面が含まれている。
参考スコア（独自算出の注目度）: 57.33043453870487
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We wish to measure the information coverage of an ad hoc retrieval algorithm, that is, how much of the range of available relevant information is covered by the search results. Information coverage is a central aspect for retrieval, especially when the retrieval system is integrated with generative models in a retrieval-augmented generation (RAG) system. The classic metrics for ad hoc retrieval, precision and recall, reward a system as more and more relevant documents are retrieved. However, since relevance in ad hoc test collections is defined for a document without any relation to other documents that might contain the same information, high recall is sufficient but not necessary to ensure coverage. The same is true for other metrics such as rank-biased precision (RBP), normalized discounted cumulative gain (nDCG), and mean average precision (MAP). Test collections developed around the notion of diversity ranking in web search incorporate multiple aspects that support a concept of coverage in the web domain. In this work, we construct a suite of collections for evaluating information coverage from existing collections. This suite offers researchers a unified testbed spanning multiple genres and tasks. All topics, nuggets, relevance labels, and baseline rankings are released on Hugging Face Datasets, along with instructions for accessing the publicly available document collections.
Abstract（参考訳）: 我々は,アドホック検索アルゴリズムの情報カバレッジ,すなわち,どの範囲の関連情報が検索結果でカバーされているかを測定したい。情報カバレッジは検索において中心的な側面であり、特に検索システムと生成モデルを統合する際には、検索拡張生成(RAG)システムにおいて重要である。アドホック検索、精度とリコールのための古典的なメトリクスは、より多くの関連ドキュメントが検索されるにつれて、システムに報酬を与える。しかし、他の情報を含む文書とは全く関係のない文書に対して、アドホックなテストコレクションの関連性を定義するため、高いリコールは十分だが、カバレッジを確保するのに必要ではない。ランクバイアス精度(RBP)、正規化割引累積ゲイン(nDCG)、平均平均精度(MAP)など、他の指標も同様である。 Web検索における多様性ランキングの概念を中心に開発されたテストコレクションには、Webドメインにおけるカバレッジの概念をサポートする複数の側面が含まれている。本研究では,既存のコレクションからの情報カバレッジを評価するためのコレクションスイートを構築する。このスイートは、複数のジャンルやタスクにまたがる統一的なテストベッドを提供する。すべてのトピック、ナゲット、レバレッジラベル、ベースラインランキングがHugging Face Datasetsでリリースされ、公開されているドキュメントコレクションにアクセスするためのインストラクションが提供されている。

関連論文リスト

Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文参考訳（メタデータ） (2025-10-21T13:37:11Z)
Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文参考訳（メタデータ） (2025-01-19T12:57:13Z)
Open-World Evaluation for Retrieving Diverse Perspectives [39.22331280176582]
主観的質問に対する検索多様性のベンチマーク(BERDS)を作成する。それぞれの例は質問と、質問に関連するさまざまな視点で構成されている。検索した文書に視点があるかどうかを判断する言語モデルに基づく自動評価器を構築した。
論文参考訳（メタデータ） (2024-09-26T17:52:57Z)
Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
生成検索システムは、しばしばクエリに対する応答として、接地された生成されたテキストを直接返す。このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
論文参考訳（メタデータ） (2023-11-08T14:05:00Z)
Beyond Document Page Classification: Design, Datasets, and Challenges [32.94494070330065]
本稿では,文書分類ベンチマークを現実のアプリケーションに近づける必要性を強調した。我々は、パブリックなマルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
論文参考訳（メタデータ） (2023-08-24T16:16:47Z)
DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文参考訳（メタデータ） (2023-05-23T10:39:57Z)
Cross-document Event Coreference Search: Task, Dataset and Modeling [26.36068336169796]
我々は、タスクのために、魅力的な、より適用可能な補完的な設定 - クロスドキュメントの参照検索を提案する。このタスクの研究を支援するために、Wikipediaから派生した対応するデータセットを作成します。本稿では,強力なコア参照スコアリング方式をDPRアーキテクチャに統合し,性能を向上する新しいモデルを提案する。
論文参考訳（メタデータ） (2022-10-23T08:21:25Z)
CODER: An efficient framework for improving retrieval through COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。ベース密度検索法により抽出された事前計算された文書表現を利用する。実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文参考訳（メタデータ） (2021-12-16T10:25:26Z)
Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文参考訳（メタデータ） (2021-10-14T20:19:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。