Fugu-MT 論文翻訳(概要): When RL Meets Adaptive Speculative Training: A Unified Training-Serving System

論文の概要: When RL Meets Adaptive Speculative Training: A Unified Training-Serving System

arxiv url: http://arxiv.org/abs/2602.06932v1
Date: Fri, 06 Feb 2026 18:28:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.525694
Title: When RL Meets Adaptive Speculative Training: A Unified Training-Serving System
Title（参考訳）: RLがアダプティブ・スペクティブ・トレーニング(Adaptive Speculative Training)に挑戦する - 統一型トレーニング・サービングシステム
Authors: Junxiong Wang, Fengxiang Bie, Jisen Li, Zhongzhu Zhou, Zelei Shao, Yubo Wang, Yinghui Liu, Qingyang Wu, Avner May, Sri Yanamandra, Yineng Zhang, Ce Zhang, Tri Dao, Percy Liang, Ben Athiwaratkun, Shuaiwen Leon Song, Chenfeng Xu, Xiaoxia Wu,
Abstract要約: Auroraは、生の推論トレースから直接投機子を直接学習することでループを閉じる統一的なトレーニングサービスシステムである。我々の設計では,SGLangベースの推論サーバを非同期トレーニングサーバと統合し,サービス中断なしにホットスワップされた投機装置の更新を可能にする。
参考スコア（独自算出の注目度）: 71.98182665273575
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speculative decoding can significantly accelerate LLM serving, yet most deployments today disentangle speculator training from serving, treating speculator training as a standalone offline modeling problem. We show that this decoupled formulation introduces substantial deployment and adaptation lag: (1) high time-to-serve, since a speculator must be trained offline for a considerable period before deployment; (2) delayed utility feedback, since the true end-to-end decoding speedup is only known after training and cannot be inferred reliably from acceptance rate alone due to model-architecture and system-level overheads; and (3) domain-drift degradation, as the target model is repurposed to new domains and the speculator becomes stale and less effective. To address these issues, we present Aurora, a unified training-serving system that closes the loop by continuously learning a speculator directly from live inference traces. Aurora reframes online speculator learning as an asynchronous reinforcement-learning problem: accepted tokens provide positive feedback, while rejected speculator proposals provide implicit negative feedback that we exploit to improve sample efficiency. Our design integrates an SGLang-based inference server with an asynchronous training server, enabling hot-swapped speculator updates without service interruption. Crucially, Aurora supports day-0 deployment: a speculator can be served immediately and rapidly adapted to live traffic, improving system performance while providing immediate utility feedback. Across experiments, Aurora achieves a 1.5x day-0 speedup on recently released frontier models (e.g., MiniMax M2.1 229B and Qwen3-Coder-Next 80B). Aurora also adapts effectively to distribution shifts in user traffic, delivering an additional 1.25x speedup over a well-trained but static speculator on widely used models (e.g., Qwen3 and Llama3).
Abstract（参考訳）: 投機的復号化はLLMのサービス提供を著しく加速させるが、今日ではほとんどのデプロイメントが投機的訓練をサービス提供から切り離し、投機的トレーニングをスタンドアロンのオフラインモデリング問題として扱う。 1) 投機を一定期間オフラインで訓練しなければならないこと,(2) 真のエンド・ツー・エンドの復号スピードアップはトレーニング後にのみ知られており,モデルアーキテクチャやシステムレベルのオーバーヘッドによってのみ受け入れ速度から確実に推測できないこと,(3) 対象モデルを新しいドメインに再利用し,投機が安定して効率が低下すること,などである。これらの問題に対処するため、我々はAuroraを紹介した。Auroraは、生の推論トレースから直接投機子を直接学習することでループを閉じる統合トレーニングサービスシステムである。 Auroraは、オンライン投機的学習を非同期強化学習の問題として再定義する: 受理トークンは肯定的なフィードバックを提供するが、却下された投機的提案は、サンプル効率を改善するために利用する暗黙のネガティブなフィードバックを提供する。我々の設計では,SGLangベースの推論サーバを非同期トレーニングサーバと統合し,サービス中断なしにホットスワップされた投機装置の更新を可能にする。重要な点として、Auroraは、0日目のデプロイメントをサポートしている。投機器は、即座に、迅速にライブトラフィックに対応でき、システムパフォーマンスを改善し、即時ユーティリティフィードバックを提供する。実験全体で、オーロラは最近リリースされたフロンティアモデル(例えば、MiniMax M2.1 229B、Qwen3-Coder-Next 80B)で1.5倍の1日0のスピードアップを達成した。 Auroraはまた、ユーザトラフィックの分散シフトに効果的に対応し、広く使用されているモデル(例えば、Qwen3、Llama3)上で、よく訓練されているが静的なスペキュレータ上で1.25倍のスピードアップを提供する。

関連論文リスト

TIDE: Temporal Incremental Draft Engine for Self-Improving LLM Inference [1.0091292967761423]
TIDEは、オンラインドラフト適応を直接高性能なLLM推論システムに統合する、サービスエンジニアリングネイティブフレームワークである。 TIDEは、推論中に生成されたターゲットモデルをトレーニング信号として再利用し、ターゲットモデルを再ロードすることなく、ゼロオーバーヘッドのドラフト適応を可能にする。さまざまな現実世界のワークロードに対して、TIDEは静的投機的復号化よりも最大1.15倍のスループット向上を実現している。
論文参考訳（メタデータ） (2026-02-05T00:06:12Z)
HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。 Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文参考訳（メタデータ） (2026-01-16T07:37:23Z)
RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文参考訳（メタデータ） (2025-12-27T11:14:23Z)
Offline Reinforcement Learning for End-to-End Autonomous Driving [1.2891210250935148]
エンドツーエンド(E2E)自律走行モデルは、カメライメージのみを入力として取り、将来の軌道を直接予測する。オンライン強化学習(RL)は、ILによる問題を緩和する可能性がある。カメラのみのE2EオフラインRLフレームワークを導入し、追加の探索を行わず、固定されたシミュレータデータセットのみをトレーニングする。
論文参考訳（メタデータ） (2025-12-21T09:21:04Z)
RAST-MoE-RL: A Regime-Aware Spatio-Temporal MoE Framework for Deep Reinforcement Learning in Ride-Hailing [11.542008509248836]
RAST-MoE(Regime-of-Experts)は、自己注意型MoEエンコーダを備えた状態認識型MDPとして適応遅延マッチングを形式化する。物理インフォームド・渋滞は、現実的な密度-速度フィードバックを保ち、数百万の効率的なロールアウトを可能にし、適応的な報酬スキームは、病理戦略から保護する。
論文参考訳（メタデータ） (2025-12-13T20:49:15Z)
ReSpec: Towards Optimizing Speculative Decoding in Reinforcement Learning Systems [36.535922134181995]
強化学習(RL)による大規模言語モデル(LLM)の適応は、しばしば生成段階によってボトルネックとなる。提案するReSpecは,3つの相補的なメカニズムを通じて,投機的復号化(SD)をRLに適応させるシステムである。 Qwenモデル(3B-14B)では、報酬収束とトレーニング安定性を維持しながら、ReSpecは最大4.5倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-10-30T13:27:42Z)
FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning [11.68914161151634]
グループ相対ポリシー最適化(GRPO)は、大規模言語モデルの推論能力を改善する上で大きな可能性を証明している。本稿では, リアルタイムレベルに応じて, ドラフトと検証戦略を調整する投機的復号化フレームワークを提案する。提案手法は,2.35xから2.72xまでのエンドツーエンドの高速化を実現し,効率性においてベースラインアプローチを大幅に上回ることを示す。
論文参考訳（メタデータ） (2025-09-26T02:48:41Z)
UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文参考訳（メタデータ） (2025-09-15T03:24:08Z)
Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文参考訳（メタデータ） (2025-09-01T18:04:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。