Fugu-MT 論文翻訳(概要): Can LLM Rerankers Predict Their Own Ranking Performance?

論文の概要: Can LLM Rerankers Predict Their Own Ranking Performance?

arxiv url: http://arxiv.org/abs/2606.03535v1
Date: Tue, 02 Jun 2026 11:57:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 22:00:04.980464
Title: Can LLM Rerankers Predict Their Own Ranking Performance?
Title（参考訳）: LLMリランカは自身のランキングパフォーマンスを予測できるか?
Authors: Shiyu Ni, Keping Bi, Jiafeng Guo, Jingtong Wu, Zengxin Han, Xueqi Cheng,
Abstract要約: テキスト・リランカ内部QPPについて検討し, LLMリランカが生成したランキングの質を推定できるか? 学習自由度推定には, サンプルランキング間の距離特異な自己整合性と, リランカが直接生成する言語的信頼度を検討した。 TREC Deep Learning 2019--2022の4つのLCMによる実験では、自己整合性は最先端(SOTA)アプローチと競合し、ほぼすべての設定でキャリブレーションが向上している。言語的信頼を改善するために,2つの教師付き方法,Verbを提案する。
参考スコア（独自算出の注目度）: 73.21268576961573
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval effectiveness varies substantially across queries, making it important to estimate ranking quality before relevance judgments are available. Query performance prediction (QPP) addresses this need, but most existing methods rely on external predictors after retrieval or reranking. In this paper, we study \textit{reranker-internal QPP}: can an LLM reranker estimate the quality of the ranking it has just produced? We investigate both training-free and training-based approaches. For training-free estimation, we examine metric-specific self-consistency across sampled rankings and verbalized confidence produced directly by the reranker. Experiments on TREC Deep Learning 2019--2022 with four LLMs show that self-consistency is competitive with the state-of-the-art (SOTA) approach and better calibrated in almost all settings, while direct verbalized confidence is severely overconfident. To improve verbalized confidence, we propose two supervised methods, Verb-Num and Verb-List, which enable LLM rerankers to produce calibrated ranking-quality estimates with only a few additional output tokens.
Abstract（参考訳）: 検索の有効性はクエリ毎に大きく異なり、関連判断が利用可能になる前にランキング品質を見積もることが重要である。クエリパフォーマンス予測(QPP)は、このニーズに対処するが、既存のほとんどのメソッドは、検索または再ランク後の外部予測器に依存している。本稿では, LLMリランカが生成したランキングの質を推定できるかどうかについて, <textit{reranker-internal QPP} について検討する。トレーニングフリーとトレーニングベースの両方のアプローチについて検討する。学習自由度推定には, サンプルランキング間の距離特異な自己整合性と, リランカが直接生成する言語的信頼度を検討した。 TREC Deep Learning 2019-2022の4つのLCMによる実験によると、自己整合性は最先端(SOTA)アプローチと競合し、ほぼすべての設定で校正され、直接的な言語化された自信は極めて過信である。言語的信頼度を向上させるために,LLMリランカが数個の出力トークンのみを付加してランキング品質の評価値を生成するための2つの教師付き手法であるVerb-NumとVerb-Listを提案する。

関連論文リスト

LLM-Confidence Reranker: A Training-Free Approach for Enhancing Retrieval-Augmented Generation Systems [27.93755705949248]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、知識集約的なタスクの幻覚は依然として重要な課題である。本稿では,RAGシステムにおけるリランク向上のための訓練不要なプラグアンドプレイアルゴリズムであるLLM-Confidence Reranker (LCR)を提案する。
論文参考訳（メタデータ） (2026-02-14T03:12:05Z)
ProRank: Prompt Warmup via Reinforcement Learning for Small Language Models Reranking [8.244386008877441]
本稿では,SLM ベースの文書更新のための新しい2段階トレーニング手法 ProRank を提案する。まず、強化学習GRPOを用いてSLMを操り、タスクプロンプトを理解するプロンプトウォームアップステージを提案する。そこで我々は,精巧なスコア学習段階を連続的に微調整し,付加層を導入することなく品質向上を図る。
論文参考訳（メタデータ） (2025-06-04T02:00:44Z)
Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文参考訳（メタデータ） (2024-06-21T21:27:50Z)
SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文参考訳（メタデータ） (2024-05-31T16:21:16Z)
Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文参考訳（メタデータ） (2024-05-30T17:19:19Z)
Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。 FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文参考訳（メタデータ） (2024-02-27T01:37:23Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。