論文の概要: BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs
- arxiv url: http://arxiv.org/abs/2602.05448v2
- Date: Fri, 06 Feb 2026 07:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 14:54:43.100852
- Title: BLITZRANK: Principled Zero-shot Ranking Agents with Tournament Graphs
- Title(参考訳): BLITZRANK: トーナメントグラフ付きゼロショットランキングエージェント
- Authors: Sheshansh Agrawal, Thien Hang Nguyen, Douwe Kiela,
- Abstract要約: 我々は、$k$-wiseランキングの原則となる基盤を提供するトーナメントグラフフレームワークを導入する。
それぞれ$k$-item比較すると、$binomk2$の完全なトーナメントがペアワイズで表示される。
我々は、アイテムのランクが確実に決定されたときを形式化し、情報ゲインを最大化する欲求クエリスケジュールを設計する。
- 参考スコア(独自算出の注目度): 14.085089126904101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting the top $m$ from $n$ items via expensive $k$-wise comparisons is fundamental to settings ranging from LLM-based document reranking to crowdsourced evaluation and tournament design. Existing methods either rely on heuristics that fail to fully exploit the information each comparison reveals, or are inefficient when they do. We introduce a tournament graph framework that provides a principled foundation for $k$-wise ranking. Our key observation is that each $k$-item comparison reveals a complete tournament of $\binom{k}{2}$ pairwise preferences; aggregating these into a global preference graph and computing its transitive closure yields many additional orderings without further oracle calls. We formalize when an item's rank is certifiably determined and design a greedy query schedule that maximizes information gain towards identifying the top-$m$ items. The framework also gracefully handles non-transitive preferences (cycles induced by real-world oracles) by collapsing them into equivalence classes that yield principled tiered rankings. Applied to LLM reranking across 14 benchmarks and 5 models, our method achieves Pareto dominance over existing approaches: matching or exceeding accuracy while requiring 25-40% fewer tokens than comparable methods, and $7\times$ fewer than pairwise reranking at near-identical quality.
- Abstract(参考訳): 高価な$k$-wise比較を通じて$n$アイテムから$m$を選択することは、LLMベースのドキュメントのランク付けからクラウドソース評価やトーナメントデザインに至るまで、基本的な設定である。
既存の手法は、比較が示す情報を完全に活用できないヒューリスティックに依存しているか、あるいはそれらが実行した場合に非効率である。
我々は、$k$-wiseランキングの原則となる基盤を提供するトーナメントグラフフレームワークを導入する。
私たちのキーとなる観察は、$k$-itemの比較によって、$\binom{k}{2}$ペアの選好の完全なトーナメントが明らかになることです。
我々は、アイテムのランクが確実に決定されたときを形式化し、上位m$アイテムを特定するための情報ゲインを最大化する、欲張りのクエリスケジュールを設計する。
このフレームワークは、非推移的選好(現実世界のオラクルによって引き起こされるサイクル)を、原則付きランキングをもたらす同値クラスに分解することで、優雅に扱う。
LLMを14のベンチマークと5つのモデルで再評価した場合、我々の手法は、同等の手法よりも25~40%少ないトークンを必要としながら、マッチングや精度の超過といった、既存のアプローチに対するParetoの優位性を達成します。
関連論文リスト
- GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning [26.616849067985967]
Groupwiseは、大規模な言語モデルのための新しいパラダイムである。
高品質な検索とランキングデータのための革新的なパイプラインを提案する。
得られたデータは、リランカのトレーニングだけでなく、レトリバーのトレーニングにも利用することができる。
論文 参考訳(メタデータ) (2025-11-10T15:25:31Z) - Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning [70.6126069527741]
ConvRec-R1は会話レコメンデーションシステムのエンドツーエンドトレーニングのための2段階のフレームワークである。
ステージ1では,Remap-Reflect-Adjustパイプラインを用いた行動閉鎖データセットを構築した。
ステージ2では,グループ相対政策最適化の原則的拡張である Rank-GRPO を提案する。
論文 参考訳(メタデータ) (2025-10-23T02:56:00Z) - GRAPE: Let GPRO Supervise Query Rewriting by Ranking for Retrieval [19.73916326078242]
CLIPモデルは,テキストと画像データを統合埋め込み空間に整列させることにより,大規模検索システムの基盤となっている。
コストのかかるリトレーニングを避けるため、既存のメソッドは主に大規模言語モデル(LLM)によるクエリ書き換え戦略を採用している。
GRAPEは,検索誘導型クエリ書き換えにランキング信号を組み込むプラグイン・アンド・プレイ拡張手法である。
論文 参考訳(メタデータ) (2025-09-27T15:36:59Z) - ERank: Fusing Supervised Fine-Tuning and Reinforcement Learning for Effective and Efficient Text Reranking [33.25740773392183]
ERankは、多種多様な関連シナリオにまたがるLLMから構築された、非常に効率的で効率的なポイントワイド・リランカである。
スーパーバイザードファインチューニング(SFT)から始まる新しい2段階トレーニングパイプラインを提案する。
この段階では、二進ラベルを超えてモデルを生成的に訓練し、微粒な整数スコアを出力し、妥当性の識別を大幅に向上させる。
BRIGHT, FollowIR, TREC DL, BEIRベンチマークにおけるERankリランカの評価を行い, 既存手法と比較して優れた有効性と堅牢性を示した。
論文 参考訳(メタデータ) (2025-08-30T14:56:53Z) - TFRank: Think-Free Reasoning Enables Practical Pointwise LLM Ranking [21.930228130429573]
LLM(Large Language Models)上に構築された推論集約型ランキングモデルは、顕著な進歩を遂げた。
既存のアプローチは、しばしば大規模なLCMと明示的なチェーン・オブ・ソート(CoT)推論に依存している。
我々は,小規模LLMに基づく効率的なポイントワイズ推論ランキングである textbfTFRank を提案する。
論文 参考訳(メタデータ) (2025-08-13T06:47:58Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Instruction Distillation Makes Large Language Models Efficient Zero-shot
Rankers [56.12593882838412]
本稿では,文書のランク付けのための新しい命令蒸留手法を提案する。
まず、複雑な命令で効果的なペアワイズ手法を用いて文書をランク付けし、簡単な指示で教師の予測をポイントワイズ方式で抽出する。
提案手法は,MonoT5のような既存の教師付きメソッドの性能を超越し,最先端のゼロショット手法と同等である。
論文 参考訳(メタデータ) (2023-11-02T19:16:21Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。