論文の概要: Speculative Sampling with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.12212v1
- Date: Sun, 18 Jan 2026 01:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.506664
- Title: Speculative Sampling with Reinforcement Learning
- Title(参考訳): 強化学習による投機的サンプリング
- Authors: Chenan Wang, Daniel H. Shi, Haipeng Chen,
- Abstract要約: 推論時間レイテンシは、大規模言語モデル(LLM)の現実的な応用において、依然としてオープンな課題である。
本稿では,投機的サンプリングのための強化学習(Reinforcement Learning for Speculative Smpling, Re-SpS)を紹介する。
- 参考スコア(独自算出の注目度): 6.146330145308428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference time latency has remained an open challenge for real world applications of large language models (LLMs). State-of-the-art (SOTA) speculative sampling (SpS) methods for LLMs, like EAGLE-3, use tree-based drafting to explore multiple candidate continuations in parallel. However, the hyperparameters controlling the tree structure are static, which limits flexibility and efficiency across diverse contexts and domains. We introduce Reinforcement learning for Speculative Sampling (Re-SpS), the first reinforcement learning (RL)-based framework for draft tree hyperparameter optimization. Re-SpS dynamically adjusts draft tree hyperparameters in real-time, learning context-aware policies that maximize generation speed by balancing speculative aggression with computational overhead. It leverages efficient state representations from target model hidden states and introduces multi-step action persistence for better context modeling. Evaluation results across five diverse benchmarks demonstrate consistent improvements over the SOTA method EAGLE-3, achieving up to 5.45$\times$ speedup over the backbone LLM and up to 1.12$\times$ speedup compared to EAGLE-3 across five diverse benchmarks, with no loss in output fidelity.
- Abstract(参考訳): 推論時間のレイテンシは、大規模言語モデル(LLM)の現実的なアプリケーションにとって、依然としてオープンな課題である。
State-of-the-art (SOTA) Speculative sample (SpS) method for LLMs, as EAGLE-3, using tree-based drafting to explore multiple candidate continuation in parallel。
しかし、ツリー構造を制御するハイパーパラメータは静的であり、様々なコンテキストやドメインの柔軟性と効率を制限している。
本稿では,投機的サンプリングのための強化学習(Reinforcement Learning for Speculative Smpling, Re-SpS)を紹介する。
Re-SpSは、投機的攻撃と計算オーバーヘッドのバランスをとることにより、生成速度を最大化するコンテキスト認識ポリシーを学習し、リアルタイムでドラフトツリーハイパーパラメータを動的に調整する。
ターゲットモデル隠れ状態からの効率的な状態表現を活用し、より優れたコンテキストモデリングのための多段階アクション永続性を導入する。
5つのベンチマークにおける評価結果は、SOTA法のEAGLE-3に対する一貫した改善を示し、最大5.45$\times$ バックボーン LLM上のスピードアップと最大1.12$\times$ スピードアップを達成し、出力の忠実さを損なうことなく、5つのベンチマークにおけるEAGLE-3と比較して最大1.12$\times$ スピードアップを達成した。
関連論文リスト
- TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs [67.55973229034319]
本稿では,マルチモーダルな大規模言語モデル(MLLM)をビデオ時間的グラウンド処理に適応させることの有効性向上を目的とした,新しい強化微調整フレームワークであるTempSamp-R1を紹介する。
我々は、TempSamp-R1がGRPOベースのベースラインより優れており、ベンチマークデータセット上で新しい最先端のパフォーマンスを確立していることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:15Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Large Language Model Enhanced Particle Swarm Optimization for Hyperparameter Tuning for Deep Learning Models [2.3949320404005436]
Particle Swarm Optimization and Large Language Models (LLM) は、最適化とディープラーニングに個別に適用されている。
本研究は,モデル評価の低減と収束性向上のため,PLMをPSOに統合することで,このギャップに対処する。
提案手法は, 探索空間の探索を最適化し, 粒子配置を最適化する手法である。
論文 参考訳(メタデータ) (2025-04-19T00:54:59Z) - Small but Mighty: Enhancing Time Series Forecasting with Lightweight LLMs [11.1036247482657]
本稿では,SMETimesについて述べる。SMETimesは,3B以下のパラメータのSLMを,効率的かつ正確な時系列予測を行うための最初の体系的な研究である。
統計的特徴によって数値時系列をテキスト意味論でブリッジする統計的に強化されたプロンプト機構; 学習可能なパラメータを通して時間パターンと言語モデルトークン空間を整列する適応型融合埋め込みアーキテクチャ。
論文 参考訳(メタデータ) (2025-03-05T15:27:36Z) - From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning [31.95005389919542]
データスケールとモデルサイズは、大規模言語モデルの性能向上に有効であることが証明されている。
本稿では,教師付きファインチューニングパラダイムであるAggregation Fine-Tuning(AFT)を紹介する。
ベンチマークデータセットの実証評価では、AFT訓練されたモデルは標準のSFTよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-01-21T04:11:59Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。