論文の概要: Reinforcement Speculative Decoding for Fast Ranking
- arxiv url: http://arxiv.org/abs/2505.20316v1
- Date: Fri, 23 May 2025 02:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.163856
- Title: Reinforcement Speculative Decoding for Fast Ranking
- Title(参考訳): 高速ランク付けのための強化投機的復号法
- Authors: Yingpeng Du, Tianjun Wei, Zhu Sun, Jie Zhang,
- Abstract要約: 大規模言語モデル (LLM) は情報検索 (IR) システムやレコメンダシステム (RS) などのランキングシステムで広く採用されている。
LLMの高速ランキング推定のための強化復号法を提案する。
- 参考スコア(独自算出の注目度): 9.584558586988953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have been widely adopted in ranking systems such as information retrieval (IR) systems and recommender systems (RSs). To alleviate the latency of auto-regressive decoding, some studies explore the single (first) token decoding for ranking approximation, but they suffer from severe degradation in tail positions. Although speculative decoding (SD) methods can be a remedy with verification at different positions, they face challenges in ranking systems due to their left-to-right decoding paradigm. Firstly, ranking systems require strict latency constraints, but verification rounds in SD methods remain agnostic; Secondly, SD methods usually discard listwise ranking knowledge about unaccepted items in previous rounds, hindering future multi-token prediction, especially when candidate tokens are the unaccepted items. In this paper, we propose a Reinforcement Speculative Decoding method for fast ranking inference of LLMs. To meet the ranking systems' latency requirement, we propose an up-to-down decoding paradigm that employs an agent to iteratively modify the ranking sequence under a constrained budget. Specifically, we design a ranking-tailored policy optimization, actively exploring optimal multi-round ranking modification policy verified by LLMs via reinforcement learning (RL). To better approximate the target LLM under the constrained budget, we trigger the agent fully utilizing the listwise ranking knowledge about all items verified by LLMs across different rounds in RL, enhancing the modification policy of the agent. More importantly, we demonstrate the theoretical robustness and advantages of our paradigm and implementation. Experiments on both IR and RS tasks show the effectiveness of our proposed method.
- Abstract(参考訳): 大規模言語モデル (LLM) は情報検索 (IR) システムやレコメンダシステム (RS) などのランキングシステムで広く採用されている。
自己回帰復号のレイテンシを軽減するために、ランク付け近似のための単一(最初の)トークン復号法を探索する研究もあるが、尾位置の深刻な劣化に悩まされている。
投機的復号法 (SD) は, 異なる位置での検証が可能であるが, 左から右への復号法により, ランキングシステムの課題に直面している。
第一に、ランキングシステムは厳格なレイテンシ制約を必要とするが、SDメソッドの検証ラウンドは不可知のままであり、第二に、SDメソッドは通常、以前のラウンドで受け入れられていないアイテムに関するリストワイドなランキング知識を廃止し、特に候補トークンが受け入れられないアイテムである場合に、将来のマルチトークン予測を妨げる。
本稿では,LLMの高速ランキング推定のための強化投機復号法を提案する。
ランク付けシステムのレイテンシ要件を満たすために,エージェントを用いて制約付き予算の下でランク付けシーケンスを反復的に変更する,アップ・トゥ・ダウン・デコード・パラダイムを提案する。
具体的には、強化学習(RL)を通してLLMが検証した最適多段階ランキング修正政策を積極的に検討し、ランキング調整されたポリシー最適化を設計する。
制約された予算下での目標LLMをよりよく近似するために、エージェントはRLの異なるラウンドでLLMが検証した全ての項目についてリストワイズランキングの知識を十分に活用し、エージェントの修正ポリシーを強化する。
さらに重要なことは、我々のパラダイムと実装の理論的堅牢性と利点を実証することです。
IRタスクとRSタスクの両方で実験を行い,提案手法の有効性を示した。
関連論文リスト
- Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates [46.74037090843497]
大規模言語モデル(LLM)は、自然言語記述に基づいたコードの自動生成によって、開発者がプログラミングにアプローチする方法を変えつつある。
本稿では,実行フィードバックを活用するコードランキングの革新的なアプローチである RankEF について述べる。
3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-26T01:48:57Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Leveraging Passage Embeddings for Efficient Listwise Reranking with Large Language Models [17.420756201557957]
本稿では, PE-Rankを提案する。
本稿では,これらの特別なトークンに復号空間を動的に制約し,復号処理を高速化する推論手法を提案する。
複数のベンチマークの結果、PE-Rankは、競合するランキング効率を維持しながら、プリフィルとデコードの両方の効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-06-21T03:33:51Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。