論文の概要: LitSearch: A Retrieval Benchmark for Scientific Literature Search
- arxiv url: http://arxiv.org/abs/2407.18940v2
- Date: Wed, 16 Oct 2024 18:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 14:50:05.065189
- Title: LitSearch: A Retrieval Benchmark for Scientific Literature Search
- Title(参考訳): LitSearch:科学文献検索のための検索ベンチマーク
- Authors: Anirudh Ajith, Mengzhou Xia, Alexis Chevalier, Tanya Goyal, Danqi Chen, Tianyu Gao,
- Abstract要約: 我々は,最近のMLおよびNLP論文に関する597のリアルな文献検索クエリからなる検索ベンチマークLitSearchを紹介する。
LitSearchのすべての質問は、高品質を保証するために専門家によって手作業で検査または編集された。
BM25と最先端の高密度リトリーバーの間には,24.8%の絶対差がみられた。
- 参考スコア(独自算出の注目度): 48.593157851171526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Literature search questions, such as "Where can I find research on the evaluation of consistency in generated summaries?" pose significant challenges for modern search engines and retrieval systems. These questions often require a deep understanding of research concepts and the ability to reason across entire articles. In this work, we introduce LitSearch, a retrieval benchmark comprising 597 realistic literature search queries about recent ML and NLP papers. LitSearch is constructed using a combination of (1) questions generated by GPT-4 based on paragraphs containing inline citations from research papers and (2) questions manually written by authors about their recently published papers. All LitSearch questions were manually examined or edited by experts to ensure high quality. We extensively benchmark state-of-the-art retrieval models and also evaluate two LLM-based reranking pipelines. We find a significant performance gap between BM25 and state-of-the-art dense retrievers, with a 24.8% absolute difference in recall@5. The LLM-based reranking strategies further improve the best-performing dense retriever by 4.4%. Additionally, commercial search engines and research tools like Google Search perform poorly on LitSearch, lagging behind the best dense retriever by up to 32 recall points. Taken together, these results show that LitSearch is an informative new testbed for retrieval systems while catering to a real-world use case.
- Abstract(参考訳): 現代の検索エンジンや検索システムにおいて,「生成した要約における一貫性の評価について,どのような研究があるのか?」といった文献検索の課題を提起する。
これらの質問は、研究概念の深い理解と、記事全体にわたって推論する能力を必要とすることが多い。
本稿では,最近のMLおよびNLP論文に関する597のリアルな文献検索クエリからなる検索ベンチマークLitSearchを紹介する。
LitSearchは,(1)研究論文からのインライン引用を含む段落に基づくGPT-4で作成された質問と,(2)著者が最近発表した論文について手書きした質問の組み合わせを用いて構築されている。
LitSearchのすべての質問は、高品質を保証するために専門家によって手作業で検査または編集された。
我々は、最先端の検索モデルを広範囲にベンチマークし、2つのLLMベースのリグレードパイプラインを評価する。
BM25と最先端の高密度リトリーバーの間には,24.8%の絶対差がみられた。
LLMベースのリグレード戦略により、最高の高密度レトリバーが4.4%向上した。
さらに、商用検索エンジンやGoogle Searchのようなリサーチツールは、LitSearchではパフォーマンスが悪く、リコールポイントを最大32ポイントも下回っている。
これらの結果は、LitSearchが現実世界のユースケースに対応しながら、検索システムのための情報的新しいテストベッドであることを示している。
関連論文リスト
- PseudoSeer: a Search Engine for Pseudocode [18.726136894285403]
疑似コードを含む学術論文の効率的な検索と検索を容易にするために、新しい擬似コード検索エンジンが設計された。
スニペットを活用することで、ユーザはタイトル、抽象情報、著者情報、コードスニペットなど、紙のさまざまな面を検索できる。
重み付けされたBM25ベースのランキングアルゴリズムを検索エンジンで使用し、検索結果の優先順位付け時に考慮される要因について述べる。
論文 参考訳(メタデータ) (2024-11-19T16:58:03Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - PaperQA: Retrieval-Augmented Generative Agent for Scientific Research [41.9628176602676]
本稿では,科学文献に関する質問に回答するためのRAGエージェントPaperQAを紹介する。
PaperQAは、全文の科学論文を通じて情報検索を行い、ソースやパスの関連性を評価し、RAGを使用して回答を提供するエージェントである。
また、文献全体にわたる全文科学論文からの情報の検索と合成を必要とする、より複雑なベンチマークであるLitQAを紹介する。
論文 参考訳(メタデータ) (2023-12-08T18:50:20Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。