論文の概要: Leveraging Reference Documents for Zero-Shot Ranking via Large Language Models
- arxiv url: http://arxiv.org/abs/2506.11452v1
- Date: Fri, 13 Jun 2025 04:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.651824
- Title: Leveraging Reference Documents for Zero-Shot Ranking via Large Language Models
- Title(参考訳): 大規模言語モデルによるゼロショットランク付けのための参照文書の活用
- Authors: Jieran Li, Xiuyuan Hu, Yang Zhao, Shengyao Zhuang, Hao Zhang,
- Abstract要約: RefRankは、固定参照文書に基づく単純で効果的な比較ランク付け手法である。
RefRankはポイントワイドのベースラインをはるかに上回り、少なくともペアワイドのアプローチと同等のパフォーマンスを達成できることを示した。
- 参考スコア(独自算出の注目度): 16.721450557704767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional performance in the task of text ranking for information retrieval. While Pointwise ranking approaches offer computational efficiency by scoring documents independently, they often yield biased relevance estimates due to the lack of inter-document comparisons. In contrast, Pairwise methods improve ranking accuracy by explicitly comparing document pairs, but suffer from substantial computational overhead with quadratic complexity ($O(n^2)$). To address this tradeoff, we propose \textbf{RefRank}, a simple and effective comparative ranking method based on a fixed reference document. Instead of comparing all document pairs, RefRank prompts the LLM to evaluate each candidate relative to a shared reference anchor. By selecting the reference anchor that encapsulates the core query intent, RefRank implicitly captures relevance cues, enabling indirect comparison between documents via this common anchor. This reduces computational cost to linear time ($O(n)$) while importantly, preserving the advantages of comparative evaluation. To further enhance robustness, we aggregate multiple RefRank outputs using a weighted averaging scheme across different reference choices. Experiments on several benchmark datasets and with various LLMs show that RefRank significantly outperforms Pointwise baselines and could achieve performance at least on par with Pairwise approaches with a significantly lower computational cost.
- Abstract(参考訳): 大規模言語モデル(LLM)は,情報検索のためのテキストランキングのタスクにおいて,例外的な性能を示した。
ポイントワイドのランク付け手法は、文書を個別に評価することで計算効率を提供するが、文書間比較の欠如により、しばしばバイアスのある関連性の推定値が得られる。
対照的に、Pairwise法は文書のペアを明示的に比較することでランキングの精度を向上させるが、計算上のオーバーヘッドと2次複雑性(O(n^2)$)に悩まされている。
このトレードオフに対処するために、固定参照文書に基づく単純かつ効果的な比較ランキング法である \textbf{RefRank} を提案する。
すべてのドキュメントペアを比較する代わりに、RefRankはLLMに、共有参照アンカーに対する各候補を評価するよう促す。
コアクエリインテントをカプセル化する参照アンカーを選択することで、RefRankは暗黙的に関連キーをキャプチャし、この共通アンカーを介してドキュメント間の間接的な比較を可能にする。
これは計算コストを線形時間(O(n)$)に削減する一方で、比較評価の利点を保っている。
さらにロバスト性を高めるために、異なる参照選択に対して重み付け平均化方式を用いて複数のRefRank出力を集約する。
いくつかのベンチマークデータセットと様々なLCMによる実験により、RefRankはポイントワイドのベースラインを著しく上回り、少なくともPairwiseのアプローチと同等の性能を計算コストで達成できることを示した。
関連論文リスト
- Likert or Not: LLM Absolute Relevance Judgments on Fine-Grained Ordinal Scales [3.4068099825211986]
関連性判断を求める2つの最も一般的なプロンプトは、ポイントワイズとリストワイズランキングである。
現在の研究コミュニティのコンセンサスでは、リストワイドランキングは優れたパフォーマンスをもたらす。
この仮説と対立する中で、十分に大きな順序関係ラベル空間を用いてポイントワイドスコアリングを行うと、ポイントワイドスコアリングとリストワイドランキングのギャップが縮むことが分かる。
論文 参考訳(メタデータ) (2025-05-25T21:41:35Z) - Using tournaments to calculate AUROC for zero-shot classification with LLMs [4.270472870948892]
大規模な言語モデルは、多くのゼロショット分類タスクで驚くほどよく機能する。
本稿では,バイナリ分類タスクをペアワイズ比較タスクに変換する手法を提案し,評価する。
繰り返しペアワイズ比較は、Eloレーティングシステムを使用してインスタンスのスコア付けに使用することができる。
論文 参考訳(メタデータ) (2025-02-20T20:13:20Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Top-Down Partitioning for Efficient List-Wise Ranking [24.600506147325717]
本稿では、ランクを深さkに分割し、文書をトップダウンで処理する新しいアルゴリズムを提案する。
このアルゴリズムは、文書から任意の深さまでを同時に比較できるピボット要素を用いることにより、本質的に並列化可能である。
論文 参考訳(メタデータ) (2024-05-23T14:00:26Z) - Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons [10.94304714004328]
本稿では,効率的な比較評価のためのPoE(Product of Expert)フレームワークを紹介する。
個人比較は、ペアのスコア差に関する情報を提供する専門家と見なされる。
PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補セットに関して最大化できる表現を生成する。
論文 参考訳(メタデータ) (2024-05-09T16:45:27Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。