論文の概要: Lighting the Way for BRIGHT: Reproducible Baselines with Anserini, Pyserini, and RankLLM
- arxiv url: http://arxiv.org/abs/2509.02558v1
- Date: Tue, 02 Sep 2025 17:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.136538
- Title: Lighting the Way for BRIGHT: Reproducible Baselines with Anserini, Pyserini, and RankLLM
- Title(参考訳): BRIGHT: Anserini, Pyserini, RankLLMによる再現可能なベースライン
- Authors: Yijun Ge, Sahel Sharifymoghaddam, Jimmy Lin,
- Abstract要約: BRIGHTベンチマークは、さまざまなドメインに対する推論集約的なクエリからなるデータセットである。
本稿では,大規模言語モデルを用いたリストワイズ・リランクを適用し,推論集約的なクエリに対するリランクの影響をさらに調査する。
これらのベースラインは、一般的な検索とツールキットであるAnserini、Pyserini、RanLLMに組み込まれている。
- 参考スコア(独自算出の注目度): 44.67715098747863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The BRIGHT benchmark is a dataset consisting of reasoning-intensive queries over diverse domains. We explore retrieval results on BRIGHT using a range of retrieval techniques, including sparse, dense, and fusion methods, and establish reproducible baselines. We then apply listwise reranking with large language models (LLMs) to further investigate the impact of reranking on reasoning-intensive queries. These baselines are integrated into popular retrieval and reranking toolkits Anserini, Pyserini, and RankLLM, with two-click reproducibility that makes them easy to build upon and convenient for further development. While attempting to reproduce the results reported in the original BRIGHT paper, we find that the provided BM25 scores differ notably from those that we obtain using Anserini and Pyserini. We discover that this difference is due to BRIGHT's implementation of BM25, which applies BM25 on the query rather than using the standard bag-of-words approach, as in Anserini, to construct query vectors. This difference has become increasingly relevant due to the rise of longer queries, with BRIGHT's lengthy reasoning-intensive queries being a prime example, and further accentuated by the increasing usage of retrieval-augmented generation, where LLM prompts can grow to be much longer than ''traditional'' search engine queries. Our observation signifies that it may be time to reconsider BM25 approaches going forward in order to better accommodate emerging applications. To facilitate this, we integrate query-side BM25 into both Anserini and Pyserini.
- Abstract(参考訳): BRIGHTベンチマークは、さまざまなドメインに対する推論集約的なクエリからなるデータセットである。
本研究では,スパース法,高密度法,融合法などの検索手法を用いてBRIGHT上の検索結果を探索し,再現可能なベースラインを確立する。
次に,大規模言語モデル (LLM) をリストワイズに再ランク付けし,推論集約クエリに対する再ランク付けの影響について検討する。
これらのベースラインは、一般的な検索とリランクツールキットAnserini、Pyserini、RanLLMに統合されている。
BRIGHTの論文で報告された結果を再現しようとしたところ、提供されたBM25スコアはアンセリーニとピセリニで得られたスコアと顕著に異なることがわかった。
この違いは BRIGHT が BM25 を実装したことによるものである。これは BM25 がクエリベクトルを構築するのに標準のbacker-of-words アプローチを使うのではなく、クエリに適用されるためである。
この違いは、BRIGHTの長大な推論集約クエリが主要な例であり、LLMプロンプトが'伝統的な'検索エンジンクエリよりもずっと長く成長する検索拡張生成の利用の増加によってさらに強調される、長いクエリの増加により、ますます関連性が高まっている。
今後のBM25のアプローチを再考して,新たなアプリケーションに適合する時が来たことを,我々の観察は示唆している。
これを容易にするために、クエリサイドBM25をAnseriniとPyseriniの両方に統合する。
関連論文リスト
- SAGE: Benchmarking and Improving Retrieval for Deep Research Agents [60.53966065867568]
SAGEは4つの科学領域にわたる1200のクエリからなる科学文献検索のためのベンチマークであり、20万の論文検索コーパスを備える。
6つのディープ・リサーチ・エージェントを評価し,全てのシステムが推論集約的な検索に苦しむことを発見した。
BM25は、既存のエージェントがキーワード指向のサブクエリを生成するため、LLMベースのレトリバーを約30%上回っている。
論文 参考訳(メタデータ) (2026-02-05T18:25:24Z) - SpIDER: Spatially Informed Dense Embedding Retrieval for Software Issue Localization [6.098008057625392]
エージェントアプローチは一般的に、BM25のようなスパース検索手法や、関連するユニットを特定するための密着型埋め込み戦略を用いる。
本研究では,LLMに基づく補助的文脈に基づく推論を組み込んだ高密度検索手法であるSpIDERを提案する。
実験結果から,SpIDERは複数のプログラミング言語間の密集検索性能を一貫して向上することが示された。
論文 参考訳(メタデータ) (2025-12-18T01:32:25Z) - Revisiting Feedback Models for HyDE [49.53124785319461]
HyDE は LLM 生成した仮説的回答文書でクエリ表現を豊かにする手法である。
実験の結果,Rocchioなどのフィードバックアルゴリズムを利用して抽出と重み拡張を行う場合,HyDEの有効性は著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-11-24T17:50:18Z) - Hint-Augmented Re-ranking: Efficient Product Search using LLM-Based Query Decomposition [20.966359103135762]
LLMは,eコマースクエリにおいて最下位の意図を明らかにすることができることを示す。
提案手法では,クエリを検索と同時に生成した属性値ヒントに分解する。
本手法はMAPにおける検索効率を10.9ポイント改善し,ベースライン上のMRRにおいて5.9ポイントのランク付けを行う。
論文 参考訳(メタデータ) (2025-11-17T23:53:25Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - InsertRank: LLMs can reason over BM25 scores to Improve Listwise Reranking [3.1125398490785217]
InsertRankはLLMベースのリランカで、リランク中のBM25スコアなどの語彙信号を活用して、検索性能をさらに向上する。
Deepseek-R1では、InsertRankはBRIGHTベンチマークで37.5点、R2MEDベンチマークで51.1点を獲得し、以前の手法を上回りました。
論文 参考訳(メタデータ) (2025-06-17T01:04:45Z) - Exp4Fuse: A Rank Fusion Framework for Enhanced Sparse Retrieval using Large Language Model-based Query Expansion [0.0]
大規模言語モデル(LLM)は、クエリ拡張のための仮説文書を生成する可能性を示している。
スパースレトリバーの性能を向上させる新しい融合ランキングフレームワークExp4Fuseを導入する。
論文 参考訳(メタデータ) (2025-06-05T08:44:34Z) - IterKey: Iterative Keyword Generation with LLMs for Enhanced Retrieval Augmented Generation [24.108631023133704]
IterKeyは、スパース検索によるRAGを強化する反復的なキーワード生成フレームワークである。
BM25ベースのRAGと単純なベースラインよりも5%から20%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-05-13T11:25:15Z) - Data Fusion of Synthetic Query Variants With Generative Large Language Models [1.864807003137943]
本研究は,データ融合実験において,命令調整型大規模言語モデルによって生成される合成クエリ変種を用いることの実現可能性について検討する。
我々は、プロンプトとデータ融合の原則を生かした、軽量で教師なしで費用効率のよいアプローチを導入します。
解析の結果,合成クエリの変種に基づくデータ融合は,単一クエリのベースラインよりもはるかに優れており,擬似関連フィードバック手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-06T12:54:27Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。