論文の概要: Lighting the Way for BRIGHT: Reproducible Baselines with Anserini, Pyserini, and RankLLM
- arxiv url: http://arxiv.org/abs/2509.02558v1
- Date: Tue, 02 Sep 2025 17:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.136538
- Title: Lighting the Way for BRIGHT: Reproducible Baselines with Anserini, Pyserini, and RankLLM
- Title(参考訳): BRIGHT: Anserini, Pyserini, RankLLMによる再現可能なベースライン
- Authors: Yijun Ge, Sahel Sharifymoghaddam, Jimmy Lin,
- Abstract要約: BRIGHTベンチマークは、さまざまなドメインに対する推論集約的なクエリからなるデータセットである。
本稿では,大規模言語モデルを用いたリストワイズ・リランクを適用し,推論集約的なクエリに対するリランクの影響をさらに調査する。
これらのベースラインは、一般的な検索とツールキットであるAnserini、Pyserini、RanLLMに組み込まれている。
- 参考スコア(独自算出の注目度): 44.67715098747863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The BRIGHT benchmark is a dataset consisting of reasoning-intensive queries over diverse domains. We explore retrieval results on BRIGHT using a range of retrieval techniques, including sparse, dense, and fusion methods, and establish reproducible baselines. We then apply listwise reranking with large language models (LLMs) to further investigate the impact of reranking on reasoning-intensive queries. These baselines are integrated into popular retrieval and reranking toolkits Anserini, Pyserini, and RankLLM, with two-click reproducibility that makes them easy to build upon and convenient for further development. While attempting to reproduce the results reported in the original BRIGHT paper, we find that the provided BM25 scores differ notably from those that we obtain using Anserini and Pyserini. We discover that this difference is due to BRIGHT's implementation of BM25, which applies BM25 on the query rather than using the standard bag-of-words approach, as in Anserini, to construct query vectors. This difference has become increasingly relevant due to the rise of longer queries, with BRIGHT's lengthy reasoning-intensive queries being a prime example, and further accentuated by the increasing usage of retrieval-augmented generation, where LLM prompts can grow to be much longer than ''traditional'' search engine queries. Our observation signifies that it may be time to reconsider BM25 approaches going forward in order to better accommodate emerging applications. To facilitate this, we integrate query-side BM25 into both Anserini and Pyserini.
- Abstract(参考訳): BRIGHTベンチマークは、さまざまなドメインに対する推論集約的なクエリからなるデータセットである。
本研究では,スパース法,高密度法,融合法などの検索手法を用いてBRIGHT上の検索結果を探索し,再現可能なベースラインを確立する。
次に,大規模言語モデル (LLM) をリストワイズに再ランク付けし,推論集約クエリに対する再ランク付けの影響について検討する。
これらのベースラインは、一般的な検索とリランクツールキットAnserini、Pyserini、RanLLMに統合されている。
BRIGHTの論文で報告された結果を再現しようとしたところ、提供されたBM25スコアはアンセリーニとピセリニで得られたスコアと顕著に異なることがわかった。
この違いは BRIGHT が BM25 を実装したことによるものである。これは BM25 がクエリベクトルを構築するのに標準のbacker-of-words アプローチを使うのではなく、クエリに適用されるためである。
この違いは、BRIGHTの長大な推論集約クエリが主要な例であり、LLMプロンプトが'伝統的な'検索エンジンクエリよりもずっと長く成長する検索拡張生成の利用の増加によってさらに強調される、長いクエリの増加により、ますます関連性が高まっている。
今後のBM25のアプローチを再考して,新たなアプリケーションに適合する時が来たことを,我々の観察は示唆している。
これを容易にするために、クエリサイドBM25をAnseriniとPyseriniの両方に統合する。
関連論文リスト
- InsertRank: LLMs can reason over BM25 scores to Improve Listwise Reranking [3.1125398490785217]
InsertRankはLLMベースのリランカで、リランク中のBM25スコアなどの語彙信号を活用して、検索性能をさらに向上する。
Deepseek-R1では、InsertRankはBRIGHTベンチマークで37.5点、R2MEDベンチマークで51.1点を獲得し、以前の手法を上回りました。
論文 参考訳(メタデータ) (2025-06-17T01:04:45Z) - Exp4Fuse: A Rank Fusion Framework for Enhanced Sparse Retrieval using Large Language Model-based Query Expansion [0.0]
大規模言語モデル(LLM)は、クエリ拡張のための仮説文書を生成する可能性を示している。
スパースレトリバーの性能を向上させる新しい融合ランキングフレームワークExp4Fuseを導入する。
論文 参考訳(メタデータ) (2025-06-05T08:44:34Z) - IterKey: Iterative Keyword Generation with LLMs for Enhanced Retrieval Augmented Generation [24.108631023133704]
IterKeyは、スパース検索によるRAGを強化する反復的なキーワード生成フレームワークである。
BM25ベースのRAGと単純なベースラインよりも5%から20%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-05-13T11:25:15Z) - Data Fusion of Synthetic Query Variants With Generative Large Language Models [1.864807003137943]
本研究は,データ融合実験において,命令調整型大規模言語モデルによって生成される合成クエリ変種を用いることの実現可能性について検討する。
我々は、プロンプトとデータ融合の原則を生かした、軽量で教師なしで費用効率のよいアプローチを導入します。
解析の結果,合成クエリの変種に基づくデータ融合は,単一クエリのベースラインよりもはるかに優れており,擬似関連フィードバック手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-06T12:54:27Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。