論文の概要: Likert or Not: LLM Absolute Relevance Judgments on Fine-Grained Ordinal Scales
- arxiv url: http://arxiv.org/abs/2505.19334v1
- Date: Sun, 25 May 2025 21:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.057331
- Title: Likert or Not: LLM Absolute Relevance Judgments on Fine-Grained Ordinal Scales
- Title(参考訳): Likert or not: LLM Absolute Relevance Judgments on Fine-Grained Ordinal Scales
- Authors: Charles Godfrey, Ping Nie, Natalia Ostapuk, David Ken, Shang Gao, Souheil Inati,
- Abstract要約: 関連性判断を求める2つの最も一般的なプロンプトは、ポイントワイズとリストワイズランキングである。
現在の研究コミュニティのコンセンサスでは、リストワイドランキングは優れたパフォーマンスをもたらす。
この仮説と対立する中で、十分に大きな順序関係ラベル空間を用いてポイントワイドスコアリングを行うと、ポイントワイドスコアリングとリストワイドランキングのギャップが縮むことが分かる。
- 参考スコア(独自算出の注目度): 3.4068099825211986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) obtain state of the art zero shot relevance ranking performance on a variety of information retrieval tasks. The two most common prompts to elicit LLM relevance judgments are pointwise scoring (a.k.a. relevance generation), where the LLM sees a single query-document pair and outputs a single relevance score, and listwise ranking (a.k.a. permutation generation), where the LLM sees a query and a list of documents and outputs a permutation, sorting the documents in decreasing order of relevance. The current research community consensus is that listwise ranking yields superior performance, and significant research effort has been devoted to crafting LLM listwise ranking algorithms. The underlying hypothesis is that LLMs are better at making relative relevance judgments than absolute ones. In tension with this hypothesis, we find that the gap between pointwise scoring and listwise ranking shrinks when pointwise scoring is implemented using a sufficiently large ordinal relevance label space, becoming statistically insignificant for many LLM-benchmark dataset combinations (where ``significant'' means ``95\% confidence that listwise ranking improves NDCG@10''). Our evaluations span four LLMs, eight benchmark datasets from the BEIR and TREC-DL suites, and two proprietary datasets with relevance labels collected after the training cut-off of all LLMs evaluated.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な情報検索タスクにおいて、最先端のゼロショット関連性ランキング性能を得る。
LLMの関連判断を誘発する最も一般的な2つのプロンプトは、ポイントワイドのスコア(relevance generation)であり、LCMは単一のクエリドキュメントペアを見て単一の関連スコアを出力し、リストワイドのランキング(permutation generation)では、LCMはクエリとドキュメントのリストを見て、関連するドキュメントの順序を減少させ、文書を順にソートする。
現在の研究コミュニティのコンセンサスでは、リストワイドランキングは優れたパフォーマンスをもたらし、LLMリストワイドランキングアルゴリズムの構築に多大な研究努力が注がれている。
根底にある仮説は、LLMは絶対値よりも相対的関連性判定が優れているというものである。
この仮説と対立する中で、十分に大きな順序関係ラベル空間を用いて点数評価を行うと、点数評価と点数ランキングの差は減少し、多くのLCM-ベンチマークデータセットの組み合わせでは統計的に重要でない(ただし '`significant'' は、リスト数ランキングがNDCG@10' を改善するという ``95\% の信頼度を意味する)。
評価対象は, BEIR と TREC-DL スイートのベンチマークデータセット8つと, 評価した全 LLM のトレーニングカット後に, 関連ラベルを持つ2つのプロプライエタリデータセットである。
関連論文リスト
- Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling [69.84963245729826]
大規模言語モデル(LLM)は魅力的な意味理解能力を示している。
デンス検索は情報検索(IR)において重要な課題であり、下流タスクを再びランク付けする基盤となっている。
我々は、差別的検索器のコントラスト学習のためのより良いバックボーンを得るために、QL推定の補助的タスクを導入する。
論文 参考訳(メタデータ) (2025-04-07T16:03:59Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Rank It, Then Ask It: Input Reranking for Maximizing the Performance of LLMs on Symmetric Tasks [9.867695275243879]
大規模言語モデル(LLM)は、実用的で汎用的なツールとして急速に登場した。
クエリが(順序のない)要素のバッグ上で要求される対称なタスクに対する LLM の適用について検討する。
論文 参考訳(メタデータ) (2024-11-30T17:39:59Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - LLM-RankFusion: Mitigating Intrinsic Inconsistency in LLM-based Ranking [17.96316956366718]
大規模言語モデル(LLM)によるランク付けは、現代の情報検索(IR)システムにおいて有望な性能を達成することができる。
ソートに基づく手法では、パスを正しくソートするには一貫した比較が必要であり、LCMがしばしば違反することを示す。
LLMベースのランキングフレームワークであるLLM-RankFusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T23:29:42Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。