論文の概要: Re-Rankers as Relevance Judges
- arxiv url: http://arxiv.org/abs/2601.04455v1
- Date: Thu, 08 Jan 2026 00:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.958544
- Title: Re-Rankers as Relevance Judges
- Title(参考訳): 関連審査員としてのリランカー
- Authors: Chuan Meng, Jiqun Liu, Mohammad Aliannejadi, Fengran Mo, Jeff Dalton, Maarten de Rijke,
- Abstract要約: 再ランカ・アズ・レバレンス・ジャッジ設定で再ランカを再現する。
TREC-DL 2019〜2023では,220Mから32Bの3家族から8人の再ランカを対象に実験を行い,再ランカに基づく審査員による評価バイアスを分析した。
- 参考スコア(独自算出の注目度): 65.37611299805856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using large language models (LLMs) to predict relevance judgments has shown promising results. Most studies treat this task as a distinct research line, e.g., focusing on prompt design for predicting relevance labels given a query and passage. However, predicting relevance judgments is essentially a form of relevance prediction, a problem extensively studied in tasks such as re-ranking. Despite this potential overlap, little research has explored reusing or adapting established re-ranking methods to predict relevance judgments, leading to potential resource waste and redundant development. To bridge this gap, we reproduce re-rankers in a re-ranker-as-relevance-judge setup. We design two adaptation strategies: (i) using binary tokens (e.g., "true" and "false") generated by a re-ranker as direct judgments, and (ii) converting continuous re-ranking scores into binary labels via thresholding. We perform extensive experiments on TREC-DL 2019 to 2023 with 8 re-rankers from 3 families, ranging from 220M to 32B, and analyse the evaluation bias exhibited by re-ranker-based judges. Results show that re-ranker-based relevance judges, under both strategies, can outperform UMBRELA, a state-of-the-art LLM-based relevance judge, in around 40% to 50% of the cases; they also exhibit strong self-preference towards their own and same-family re-rankers, as well as cross-family bias.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いて関連判断を予測することで,有望な結果が得られた。
多くの研究は、このタスクを、クエリとパスが与えられた関連ラベルを予測するための迅速な設計に焦点を当てた、独立した研究ラインとして扱う。
しかし、関連判断の予測は、本質的には関連予測の一種であり、再ランク付けなどのタスクで広く研究されている。
この重複の可能性があるにも拘わらず、資源の浪費や冗長な開発につながる関連判断を予測するために確立された再評価手法の再利用や適応についてはほとんど研究されていない。
このギャップを埋めるために、再ランカ・アズ・レバレンス・ジャッジのセットアップで再ランカを再現する。
我々は2つの適応戦略を設計する。
(i) 直接判断として再選者によって生成された二進トークン(例,「真」及び「偽」)を用いて、
(ii) スコアの連続再ランク付けをしきい値付けによりバイナリラベルに変換する。
TREC-DL 2019から2023年にかけて,220Mから32Bの3家族から8人の再ランカを対象に広範囲にわたる実験を行い,再ランカに基づく審査員による評価バイアスの分析を行った。
その結果、両者の戦略の下では、リランカに基づく関連判断は、最先端のLSMに基づく関連判断であるUPBRELAを約40%から50%のケースで上回り、また、自己および同家族の再ランカに対する強い自己選好と、クロスオリジンバイアスを呈することを示した。
関連論文リスト
- Rethinking Reasoning in Document Ranking: Why Chain-of-Thought Falls Short [36.93384080571354]
文書の再ランク付けは情報検索(IR)における重要な要素である
本研究は, ポイントワイド設定とリストワイド設定の両方にまたがって, 推論に関する最初の体系的な研究である。
論文 参考訳(メタデータ) (2025-10-10T03:59:17Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Criteria-Based LLM Relevance Judgments [5.478764356647438]
大規模言語モデル(LLM)は、プロンプトを通じて関連ラベルを直接生成することで、スケーラブルなソリューションを提供する。
LLMに基づく関連判断のための多基準フレームワークを提案し、関連性の概念を複数の基準に分解する。
以上の結果から,マルチクオリトリア判定はシステムランキング・リーダーボードの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-07-13T04:21:21Z) - CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。
CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文 参考訳(メタデータ) (2025-07-12T01:34:24Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。