論文の概要: Drowning in Documents: Consequences of Scaling Reranker Inference
- arxiv url: http://arxiv.org/abs/2411.11767v1
- Date: Mon, 18 Nov 2024 17:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:36:03.789087
- Title: Drowning in Documents: Consequences of Scaling Reranker Inference
- Title(参考訳): ドキュメントのドローイング:リランカ推論のスケーリングの結果として
- Authors: Mathew Jacob, Erik Lindgren, Matei Zaharia, Michael Carbin, Omar Khattab, Andrew Drozdov,
- Abstract要約: クロスエンコーダはしばしば、より安価な初期IRシステムによって取得された文書を再スコアするために使用される。
本研究は,第1段階検索を再現するだけでなく,完全検索のための再ランカ性能を計測する。
私たちの実験では驚くべき傾向が示されています: 最高のリランカーは、徐々に多くのドキュメントをスコアリングするときに、リターンを減少させます。
- 参考スコア(独自算出の注目度): 35.499018267073964
- License:
- Abstract: Rerankers, typically cross-encoders, are often used to re-score the documents retrieved by cheaper initial IR systems. This is because, though expensive, rerankers are assumed to be more effective. We challenge this assumption by measuring reranker performance for full retrieval, not just re-scoring first-stage retrieval. Our experiments reveal a surprising trend: the best existing rerankers provide diminishing returns when scoring progressively more documents and actually degrade quality beyond a certain limit. In fact, in this setting, rerankers can frequently assign high scores to documents with no lexical or semantic overlap with the query. We hope that our findings will spur future research to improve reranking.
- Abstract(参考訳): 通常はクロスエンコーダと呼ばれるリランカーは、より安価な初期IRシステムによって取得された文書を再スコアするためにしばしば使用される。
これは、高価ではあるが、リランカーの方が効果が高いと想定されているためである。
我々は,第1段階の検索だけに留まらず,完全検索のためのリランカ性能を測定することで,この仮定に挑戦する。
私たちの実験では、驚くべき傾向が示されています: 最高のリランカーは、徐々に多くのドキュメントをスコア付けし、特定の制限を超えて実際に品質を劣化させるときに、リターンを減少させます。
実際、この設定では、リランカはクエリと語彙や意味的な重複のないドキュメントに高いスコアを割り当てることができる。
われわれの発見が今後の研究を後押しし、再評価の改善を期待する」と述べた。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models [34.39053202801489]
現実世界のRAGシステムでは、現在のクエリは会話コンテキストからの音声楕円とあいまいな参照を含むことが多い。
本稿では,検索プロセスと生成結果の両方からマルチアスペクトフィードバックを統合することにより,RAG性能を向上させる新しいクエリ書き換え手法MaFeRwを提案する。
2つの対話型RAGデータセットの実験結果から、MaFeRwはベースラインよりも優れた生成指標と安定したトレーニングを達成できることが示された。
論文 参考訳(メタデータ) (2024-08-30T07:57:30Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - Can We Use Large Language Models to Fill Relevance Judgment Holes? [9.208308067952155]
ホールを埋めるためにLarge Language Models(LLM)を利用することで、既存のテストコレクションを拡張するための最初のステップを取ります。
人間+自動判断を用いた場合, 相関関係は著しく低くなる。
論文 参考訳(メタデータ) (2024-05-09T07:39:19Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。
本稿では,リランカを利用してリコールを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。