論文の概要: InsertRank: LLMs can reason over BM25 scores to Improve Listwise Reranking
- arxiv url: http://arxiv.org/abs/2506.14086v1
- Date: Tue, 17 Jun 2025 01:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.279114
- Title: InsertRank: LLMs can reason over BM25 scores to Improve Listwise Reranking
- Title(参考訳): InsertRank: LLM は BM25 以上のスコアを推論して Listwise Re rank を改善する
- Authors: Rahul Seetharaman, Kaustubh D. Dhole, Aman Bansal,
- Abstract要約: InsertRankはLLMベースのリランカで、リランク中のBM25スコアなどの語彙信号を活用して、検索性能をさらに向上する。
Deepseek-R1では、InsertRankはBRIGHTベンチマークで37.5点、R2MEDベンチマークで51.1点を獲得し、以前の手法を上回りました。
- 参考スコア(独自算出の注目度): 3.1125398490785217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated significant strides across various information retrieval tasks, particularly as rerankers, owing to their strong generalization and knowledge-transfer capabilities acquired from extensive pretraining. In parallel, the rise of LLM-based chat interfaces has raised user expectations, encouraging users to pose more complex queries that necessitate retrieval by ``reasoning'' over documents rather than through simple keyword matching or semantic similarity. While some recent efforts have exploited reasoning abilities of LLMs for reranking such queries, considerable potential for improvement remains. In that regards, we introduce InsertRank, an LLM-based reranker that leverages lexical signals like BM25 scores during reranking to further improve retrieval performance. InsertRank demonstrates improved retrieval effectiveness on -- BRIGHT, a reasoning benchmark spanning 12 diverse domains, and R2MED, a specialized medical reasoning retrieval benchmark spanning 8 different tasks. We conduct an exhaustive evaluation and several ablation studies and demonstrate that InsertRank consistently improves retrieval effectiveness across multiple families of LLMs, including GPT, Gemini, and Deepseek models. %In addition, we also conduct ablation studies on normalization by varying the scale of the BM25 scores, and positional bias by shuffling the order of the documents. With Deepseek-R1, InsertRank achieves a score of 37.5 on the BRIGHT benchmark. and 51.1 on the R2MED benchmark, surpassing previous methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な情報検索タスク、特にリランカーにおいて、その強力な一般化と広範な事前訓練から得られる知識伝達能力により、大きな進歩を見せている。
並行して、LLMベースのチャットインタフェースの台頭はユーザの期待を高め、ユーザーは単純なキーワードマッチングやセマンティックな類似性ではなく、文書上で ``reasoning' による検索を必要とするより複雑なクエリを提示するように促している。
最近の試みでは、LLMの推論能力を利用してクエリを再ランク付けする試みもあるが、改善の可能性はかなり残っている。
そこで本研究では,LLMをベースとしたリランカであるInsertRankを紹介し,リランク中のBM25スコアなどの語彙信号を活用することにより,検索性能の向上を図る。
InsertRankは、12の異なるドメインにまたがる推論ベンチマークBRIGHTと、8つの異なるタスクにまたがる専門的な医学推論検索ベンチマークR2MEDで、検索効率の改善を実証している。
InsertRank は GPT, Gemini および Deepseek モデルを含む複数の LLM モデルの検索効率を連続的に向上することを示した。
また,BM25スコアの尺度の変動による正規化と文書の順序の調整による位置偏差についてもアブレーション研究を行った。
Deepseek-R1では、InsertRankはBRIGHTベンチマークで37.5のスコアを獲得している。
R2MEDベンチマークでは51.1で、以前の手法を上回りました。
関連論文リスト
- Exp4Fuse: A Rank Fusion Framework for Enhanced Sparse Retrieval using Large Language Model-based Query Expansion [0.0]
大規模言語モデル(LLM)は、クエリ拡張のための仮説文書を生成する可能性を示している。
スパースレトリバーの性能を向上させる新しい融合ランキングフレームワークExp4Fuseを導入する。
論文 参考訳(メタデータ) (2025-06-05T08:44:34Z) - Likert or Not: LLM Absolute Relevance Judgments on Fine-Grained Ordinal Scales [3.4068099825211986]
関連性判断を求める2つの最も一般的なプロンプトは、ポイントワイズとリストワイズランキングである。
現在の研究コミュニティのコンセンサスでは、リストワイドランキングは優れたパフォーマンスをもたらす。
この仮説と対立する中で、十分に大きな順序関係ラベル空間を用いてポイントワイドスコアリングを行うと、ポイントワイドスコアリングとリストワイドランキングのギャップが縮むことが分かる。
論文 参考訳(メタデータ) (2025-05-25T21:41:35Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - LoRE: Logit-Ranked Retriever Ensemble for Enhancing Open-Domain Question Answering [0.0]
位置バイアスを緩和することで解答精度と妥当性を向上させる新しいアプローチであるLoREを提案する。
LoREはBM25やFAISSインデックス付き文変換器といった多様なレトリバーのアンサンブルを使用している。
重要な革新は、ロジットベースの回答ランキングアルゴリズムで、大きな言語モデルからのロジットスコアとパスの検索ランクを組み合わせたものである。
論文 参考訳(メタデータ) (2024-10-13T23:06:08Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。