論文の概要: LLM Optimization Unlocks Real-Time Pairwise Reranking
- arxiv url: http://arxiv.org/abs/2511.07555v1
- Date: Wed, 12 Nov 2025 01:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.381235
- Title: LLM Optimization Unlocks Real-Time Pairwise Reranking
- Title(参考訳): LLM最適化がリアルタイムのペアリグレードをアンロック
- Authors: Jingyu Wu, Aditya Shrivastava, Jing Zhu, Alfy Samuel, Anoop Kumar, Daben Liu,
- Abstract要約: Pairwise Re rank Prompting (PRP) はそのユーザビリティと有効性から,将来性のあるプラグアンドプレイアプローチとして登場した。
本稿では、ペアワイズ・リライジングに焦点を合わせ、厳密な最適化手法がこれらの問題を著しく軽減できることを実証する。
Recall@kで測定されたパフォーマンスは、61.36秒から0.37秒まで、最高166倍の遅延削減を実現しています。
- 参考スコア(独自算出の注目度): 6.0141312590967635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently reranking documents retrieved from information retrieval (IR) pipelines to enhance overall quality of Retrieval-Augmented Generation (RAG) system remains an important yet challenging problem. Recent studies have highlighted the importance of Large Language Models (LLMs) in reranking tasks. In particular, Pairwise Reranking Prompting (PRP) has emerged as a promising plug-and-play approach due to its usability and effectiveness. However, the inherent complexity of the algorithm, coupled with the high computational demands and latency incurred due to LLMs, raises concerns about its feasibility in real-time applications. To address these challenges, this paper presents a focused study on pairwise reranking, demonstrating that carefully applied optimization methods can significantly mitigate these issues. By implementing these methods, we achieve a remarkable latency reduction of up to 166 times, from 61.36 seconds to 0.37 seconds per query, with an insignificant drop in performance measured by Recall@k. Our study highlights the importance of design choices that were previously overlooked, such as using smaller models, limiting the reranked set, using lower precision, reducing positional bias with one-directional order inference, and restricting output tokens. These optimizations make LLM-based reranking substantially more efficient and feasible for latency-sensitive, real-world deployments.
- Abstract(参考訳): 情報検索(IR)パイプラインから取得した文書を効率よく更新し、検索・拡張生成(RAG)システム全体の品質を向上させることは、依然として重要な課題である。
最近の研究は、タスクの再ランク付けにおけるLarge Language Models (LLMs)の重要性を強調している。
特に、Pairwise Re rank Prompting (PRP)は、そのユーザビリティと有効性から、将来性のあるプラグアンドプレイアプローチとして登場した。
しかし、アルゴリズムの本質的な複雑さと、LLMによる高い計算要求と遅延が組み合わさって、リアルタイムアプリケーションにおけるその実現可能性への懸念が高まる。
これらの課題に対処するため,本論文では,ペアワイド・リグレード(ペアワイド・リグレード)に焦点をあて,慎重に適用した最適化手法がこれらの問題を著しく軽減できることを実証する。
これらの手法を実装することで、クエリあたり61.36秒から0.37秒までの166倍のレイテンシ削減を実現します。
本研究は, 従来見過ごされていた設計選択の重要性を強調した。例えば, より小さなモデルの使用, 再帰集合の制限, 低い精度の使用, 一方向の順序推論による位置偏差の低減, 出力トークンの制限などである。
これらの最適化により、LLMベースのリランクは、レイテンシに敏感で現実的なデプロイメントにおいて、大幅に効率が良く、実現可能である。
関連論文リスト
- Sample-efficient LLM Optimization with Reset Replay [13.739451157239756]
Reset Replay (LoRR) は、任意の好みベースの最適化フレームワークにおいて、サンプリング効率を高めるために設計されたプラグインである。
LoRRは、ネットワークの可塑性を保存する初期データを再利用する定期的なリセット戦略を取り入れている。
実験により,LoRRは数学的および一般的な推論ベンチマークにおいて,様々な選好最適化手法の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-08-08T15:56:49Z) - Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [69.67914133280296]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。
LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。
本手法は,従来のGRPOアルゴリズムと同等の性能を示しながら,RLの微調整時間を23%から62%削減する。
論文 参考訳(メタデータ) (2025-06-05T17:55:43Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。