論文の概要: LLM Optimization Unlocks Real-Time Pairwise Reranking
- arxiv url: http://arxiv.org/abs/2511.07555v1
- Date: Wed, 12 Nov 2025 01:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.381235
- Title: LLM Optimization Unlocks Real-Time Pairwise Reranking
- Title(参考訳): LLM最適化がリアルタイムのペアリグレードをアンロック
- Authors: Jingyu Wu, Aditya Shrivastava, Jing Zhu, Alfy Samuel, Anoop Kumar, Daben Liu,
- Abstract要約: Pairwise Re rank Prompting (PRP) はそのユーザビリティと有効性から,将来性のあるプラグアンドプレイアプローチとして登場した。
本稿では、ペアワイズ・リライジングに焦点を合わせ、厳密な最適化手法がこれらの問題を著しく軽減できることを実証する。
Recall@kで測定されたパフォーマンスは、61.36秒から0.37秒まで、最高166倍の遅延削減を実現しています。
- 参考スコア(独自算出の注目度): 6.0141312590967635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently reranking documents retrieved from information retrieval (IR) pipelines to enhance overall quality of Retrieval-Augmented Generation (RAG) system remains an important yet challenging problem. Recent studies have highlighted the importance of Large Language Models (LLMs) in reranking tasks. In particular, Pairwise Reranking Prompting (PRP) has emerged as a promising plug-and-play approach due to its usability and effectiveness. However, the inherent complexity of the algorithm, coupled with the high computational demands and latency incurred due to LLMs, raises concerns about its feasibility in real-time applications. To address these challenges, this paper presents a focused study on pairwise reranking, demonstrating that carefully applied optimization methods can significantly mitigate these issues. By implementing these methods, we achieve a remarkable latency reduction of up to 166 times, from 61.36 seconds to 0.37 seconds per query, with an insignificant drop in performance measured by Recall@k. Our study highlights the importance of design choices that were previously overlooked, such as using smaller models, limiting the reranked set, using lower precision, reducing positional bias with one-directional order inference, and restricting output tokens. These optimizations make LLM-based reranking substantially more efficient and feasible for latency-sensitive, real-world deployments.
- Abstract(参考訳): 情報検索(IR)パイプラインから取得した文書を効率よく更新し、検索・拡張生成(RAG)システム全体の品質を向上させることは、依然として重要な課題である。
最近の研究は、タスクの再ランク付けにおけるLarge Language Models (LLMs)の重要性を強調している。
特に、Pairwise Re rank Prompting (PRP)は、そのユーザビリティと有効性から、将来性のあるプラグアンドプレイアプローチとして登場した。
しかし、アルゴリズムの本質的な複雑さと、LLMによる高い計算要求と遅延が組み合わさって、リアルタイムアプリケーションにおけるその実現可能性への懸念が高まる。
これらの課題に対処するため,本論文では,ペアワイド・リグレード(ペアワイド・リグレード)に焦点をあて,慎重に適用した最適化手法がこれらの問題を著しく軽減できることを実証する。
これらの手法を実装することで、クエリあたり61.36秒から0.37秒までの166倍のレイテンシ削減を実現します。
本研究は, 従来見過ごされていた設計選択の重要性を強調した。例えば, より小さなモデルの使用, 再帰集合の制限, 低い精度の使用, 一方向の順序推論による位置偏差の低減, 出力トークンの制限などである。
これらの最適化により、LLMベースのリランクは、レイテンシに敏感で現実的なデプロイメントにおいて、大幅に効率が良く、実現可能である。
関連論文リスト
- Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Sample-efficient LLM Optimization with Reset Replay [13.739451157239756]
Reset Replay (LoRR) は、任意の好みベースの最適化フレームワークにおいて、サンプリング効率を高めるために設計されたプラグインである。
LoRRは、ネットワークの可塑性を保存する初期データを再利用する定期的なリセット戦略を取り入れている。
実験により,LoRRは数学的および一般的な推論ベンチマークにおいて,様々な選好最適化手法の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-08-08T15:56:49Z) - Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [69.67914133280296]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。
LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。
本手法は,従来のGRPOアルゴリズムと同等の性能を示しながら,RLの微調整時間を23%から62%削減する。
論文 参考訳(メタデータ) (2025-06-05T17:55:43Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering [8.926050258264844]
本研究では,AttenHScoreと呼ばれる実用的な呼び出し評価指標を提案する。
小さなLMの生成過程における幻覚の蓄積と伝播を計算する。
検出しきい値を動的に調整することにより、大きなLMのより正確なリアルタイム実行を実現する。
論文 参考訳(メタデータ) (2025-05-05T01:45:56Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - The Efficiency vs. Accuracy Trade-off: Optimizing RAG-Enhanced LLM Recommender Systems Using Multi-Head Early Exit [46.37267466656765]
本稿では,Retrieval-Augmented Generation(RAG)と革新的なマルチヘッドアーリーエグジットアーキテクチャを組み合わせた最適化フレームワークを提案する。
我々の実験は、信頼性の高いレコメンデーション配信に必要な精度を犠牲にすることなく、このアーキテクチャがいかに効果的に時間を削減するかを実証している。
論文 参考訳(メタデータ) (2025-01-04T03:26:46Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。