論文の概要: ExcluIR: Exclusionary Neural Information Retrieval
- arxiv url: http://arxiv.org/abs/2404.17288v1
- Date: Fri, 26 Apr 2024 09:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 01:28:14.580864
- Title: ExcluIR: Exclusionary Neural Information Retrieval
- Title(参考訳): ExcluIR:排他的ニューラル情報検索
- Authors: Wenhao Zhang, Mengqi Zhang, Shiguang Wu, Jiahuan Pei, Zhaochun Ren, Maarten de Rijke, Zhumin Chen, Pengjie Ren,
- Abstract要約: 本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれている。
トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
- 参考スコア(独自算出の注目度): 74.08276741093317
- License:
- Abstract: Exclusion is an important and universal linguistic skill that humans use to express what they do not want. However, in information retrieval community, there is little research on exclusionary retrieval, where users express what they do not want in their queries. In this work, we investigate the scenario of exclusionary retrieval in document retrieval for the first time. We present ExcluIR, a set of resources for exclusionary retrieval, consisting of an evaluation benchmark and a training set for helping retrieval models to comprehend exclusionary queries. The evaluation benchmark includes 3,452 high-quality exclusionary queries, each of which has been manually annotated. The training set contains 70,293 exclusionary queries, each paired with a positive document and a negative document. We conduct detailed experiments and analyses, obtaining three main observations: (1) Existing retrieval models with different architectures struggle to effectively comprehend exclusionary queries; (2) Although integrating our training data can improve the performance of retrieval models on exclusionary retrieval, there still exists a gap compared to human performance; (3) Generative retrieval models have a natural advantage in handling exclusionary queries. To facilitate future research on exclusionary retrieval, we share the benchmark and evaluation scripts on \url{https://github.com/zwh-sdu/ExcluIR}.
- Abstract(参考訳): 排除は人間が望まないことを表現するために使う重要で普遍的な言語スキルである。
しかし,情報検索コミュニティでは,ユーザがクエリで望まないものを表現できる排他的検索についてはほとんど研究されていない。
本研究では,文書検索における排他的検索のシナリオを初めて考察する。
本稿では,排他的検索のためのリソースセットであるExcluIRについて,評価ベンチマークと,排他的クエリの理解を支援するためのトレーニングセットを提示する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれており、それぞれが手動で注釈付けされている。
トレーニングセットは70,293の排他的クエリを含み、それぞれ正のドキュメントと負のドキュメントとがペアリングされる。
我々は,(1)異なるアーキテクチャを持つ既存の検索モデルでは,排他的クエリを効果的に理解できない,(2)トレーニングデータを統合することで排他的検索における検索モデルの性能が向上する,という3つの主要な観察結果を得た。
除外検索の今後の研究を容易にするため、ベンチマークと評価スクリプトを \url{https://github.com/zwh-sdu/ExcluIR} で共有する。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Open-World Evaluation for Retrieving Diverse Perspectives [39.22331280176582]
主観的質問に対する検索多様性のベンチマーク(BERDS)を作成する。
それぞれの例は質問と、質問に関連するさまざまな視点で構成されている。
検索した文書に視点があるかどうかを判断する言語モデルに基づく自動評価器を構築する。
論文 参考訳(メタデータ) (2024-09-26T17:52:57Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - A Comparison of Approaches for Imbalanced Classification Problems in the
Context of Retrieving Relevant Documents for an Analysis [0.0]
本研究は,クエリ拡張手法,トピックモデルに基づく分類規則,能動的および受動的教師あり学習を比較した。
その結果、ほとんどの研究環境におけるクエリ拡張手法とトピックモデルに基づく分類規則は、検索性能を向上するよりも低下する傾向にあることがわかった。
論文 参考訳(メタデータ) (2022-05-03T16:22:42Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。