Fugu-MT 論文翻訳(概要): LRanker: LLM Ranker for Massive Candidates

論文の概要: LRanker: LLM Ranker for Massive Candidates

arxiv url: http://arxiv.org/abs/2605.27810v1
Date: Wed, 27 May 2026 01:04:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.661497
Title: LRanker: LLM Ranker for Massive Candidates
Title（参考訳）: LRanker: LLM Ranker for Massive Candidates
Authors: Tao Feng, Zijie Lei, Zhigang Hua, Yan Xie, Shuang Yang, Ge Liu, Jiaxuan You,
Abstract要約: 大規模候補ランキングに適したフレームワークであるLRankerを提案する。 LRankerはK平均クラスタリングを利用してグローバルな候補情報を明示的にモデル化するアグリゲーションエンコーダを組み込んでいる。我々はRBenchの3つのシナリオにまたがる7つのタスクにおけるLRankerの評価を行った。
参考スコア（独自算出の注目度）: 32.698478901429375
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have recently shown strong potential for ranking by capturing semantic relevance and adapting across diverse domains, yet existing methods remain constrained by limited context length and high computational costs, restricting their applicability to real-world scenarios where candidate pools often scale to millions. To address this challenge, we propose LRanker, a framework tailored for large-candidate ranking. LRanker incorporates a candidate aggregation encoder that leverages K-means clustering to explicitly model global candidate information, and a graph-based test-time scaling mechanism that partitions candidates into subsets, generates multiple query embeddings, and integrates them through an ensemble procedure. By aggregating diverse embeddings instead of relying on a single representation, this mechanism enhances robustness and expressiveness, leading to more accurate ranking over massive candidate pools. We evaluate LRanker on seven tasks across three scenarios in RBench with different candidate scales. Experimental results show that LRanker achieves over 30% gains in the RBench-Small scenario, improves by 3-9% in MRR in the RBench-Large scenario, and sustains scalability with 20-30% improvements in the RBench-Ultra scenario with more than 6.8M candidates. Ablation studies further verify the effectiveness of its key components. Together, these findings demonstrate the robustness, scalability, and effectiveness of LRanker for massive-candidate ranking.
Abstract（参考訳）: 大規模言語モデル(LLM)は、最近、セマンティックな関連性を捉え、多様なドメインに適応することで、ランク付けの可能性を強く示しているが、既存の手法は、コンテキストの長さと高い計算コストに制約され、候補プールが数百万にスケールする現実のシナリオに適用性に制限されている。この課題に対処するために,大規模候補ランキングに適したフレームワークであるLRankerを提案する。 LRankerは、K平均クラスタリングを利用して、グローバルな候補情報を明示的にモデル化する候補集約エンコーダと、候補をサブセットに分割し、複数のクエリ埋め込みを生成し、アンサンブル手順を通じてそれらを統合するグラフベースのテスト時間スケーリングメカニズムを組み込んでいる。単一の表現に頼るのではなく、多様な埋め込みを集約することにより、このメカニズムは堅牢性と表現性を向上し、巨大な候補プールよりも正確なランキングを得る。我々はRBenchの3つのシナリオにまたがる7つのタスクにおけるLRankerの評価を行った。実験の結果、LRankerはRBench-Smallシナリオで30%以上のゲインを達成し、RBench-Largeシナリオでは3～9%改善し、RBench-Ultraシナリオでは6.8万以上の候補で20～30%のスケーラビリティが向上した。アブレーション研究は、その重要な構成要素の有効性をさらに検証する。これらの知見は, LRankerの大規模候補ランキングにおける堅牢性, スケーラビリティ, 有効性を示すものである。

関連論文リスト

OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation [53.88666485159289]
OpenDeepThinkは、集団ベースのテスト時間計算フレームワークで、ペアワイズBradley-Terryの比較によって選択する。 OpenDeepThinkはGemini 3.1 ProのCodeforces Eloを8回のLCMコールラウンドで+405ポイント引き上げる。 CF-73は、国際グランドマスターアノテーションによる73の専門家評価コードフォース問題と、公式判決に対する99%の地域評価合意のキュレートされたセットである。
論文参考訳（メタデータ） (2026-05-14T17:57:40Z)
F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking [79.49893545611779]
大規模言語モデル(LLM)はサブセットを生成し、それを1つの自己回帰パス内で順序付けることができる。この柔軟性は、新しい最適化課題をもたらす: モデルが出力空間を検索し、完全なランクリストが生成された後にのみユーティリティフィードバックを受けなければならない。このクレジット割り当てギャップは、エンドツーエンドの最適化を不安定にし、サンプル非効率にする。本稿では,単一自己回帰的ロールアウト内の両方を実行する統一フレームワークを提案する。
論文参考訳（メタデータ） (2026-05-13T04:52:33Z)
RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文参考訳（メタデータ） (2026-02-12T21:28:46Z)
GRAPE: Let GPRO Supervise Query Rewriting by Ranking for Retrieval [19.73916326078242]
CLIPモデルは,テキストと画像データを統合埋め込み空間に整列させることにより,大規模検索システムの基盤となっている。コストのかかるリトレーニングを避けるため、既存のメソッドは主に大規模言語モデル(LLM)によるクエリ書き換え戦略を採用している。 GRAPEは,検索誘導型クエリ書き換えにランキング信号を組み込むプラグイン・アンド・プレイ拡張手法である。
論文参考訳（メタデータ） (2025-09-27T15:36:59Z)
R1-Ranker: Teaching LLM Rankers to Reason [35.35360001710222]
R1-Rankerは強化学習に基づく推論インセンティブフレームワークである。 IRankerは、より深い推論を促進するために、段階的な報酬でランク付けを反復的排除プロセスに分解する。我々は、レコメンデーション、ルーティング、通過ランキングにまたがる9つのデータセットに基づいて、統一されたR1-Rankerを評価した。
論文参考訳（メタデータ） (2025-06-25T17:56:06Z)
hyperFA*IR: A hypergeometric approach to fair rankings with finite candidate pool [0.0]
本稿では,候補の有限集合から抽出したランキングの公平性を評価するためのフレームワークである hyperFA*IR を提案する。これは超幾何分布に基づく生成プロセスに依存しており、固定されたグループサイズから置き換えることなくサンプリングによって実世界のシナリオをモデル化する。また,計算コストのかかるパラメータチューニングを回避し,不正ランキングを効率的に検出するモンテカルロアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-17T09:45:08Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。 1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。