論文の概要: SRT: Accelerating Reinforcement Learning via Speculative Rollout with Tree-Structured Cache
- arxiv url: http://arxiv.org/abs/2601.09083v1
- Date: Wed, 14 Jan 2026 02:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.225091
- Title: SRT: Accelerating Reinforcement Learning via Speculative Rollout with Tree-Structured Cache
- Title(参考訳): SRT: ツリー構造化キャッシュによる投機的ロールアウトによる強化学習の高速化
- Authors: Chi-Chih Chang, Siqi Zhu, Zhichen Zeng, Haibin Lin, Jiaxuan You, Mohamed S. Abdelfattah, Ziheng Jiang, Xuehai Qian,
- Abstract要約: Tree-Structured Cache (SRT) を用いた投機的ロールアウトは、オンライン強化学習(RL)を高速化するためのモデルレスアプローチである。
SRTは、トレーニングステップ全体で同じプロンプトに対するロールアウトの実証的な類似性を利用して、以前生成された継続をプロンプトごとのツリー構造キャッシュに格納する。
継続して生成とステップのレイテンシを低減し、トーケン毎の推論コストを低減し、ロールアウト時に最大228倍のウォールタイムタイムスピードアップを達成する。
- 参考スコア(独自算出の注目度): 27.164352776270217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Speculative Rollout with Tree-Structured Cache (SRT), a simple, model-free approach to accelerate on-policy reinforcement learning (RL) for language models without sacrificing distributional correctness. SRT exploits the empirical similarity of rollouts for the same prompt across training steps by storing previously generated continuations in a per-prompt tree-structured cache. During generation, the current policy uses this tree as the draft model for performing speculative decoding. To keep the cache fresh and improve draft model quality, SRT updates trees online from ongoing rollouts and proactively performs run-ahead generation during idle GPU bubbles. Integrated into standard RL pipelines (\textit{e.g.}, PPO, GRPO and DAPO) and multi-turn settings, SRT consistently reduces generation and step latency and lowers per-token inference cost, achieving up to 2.08x wall-clock time speedup during rollout.
- Abstract(参考訳): 本稿では,木構造キャッシュを用いた投機的ロールアウト(SRT)を提案する。これは,分散正当性を犠牲にすることなく,言語モデルに対するオンライン強化学習(RL)を高速化するための,シンプルでモデルのないアプローチである。
SRTは、トレーニングステップ全体で同じプロンプトに対するロールアウトの実証的な類似性を利用して、以前生成された継続をプロンプトごとのツリー構造キャッシュに格納する。
現在のポリシーでは、このツリーを投機的復号化を行うためのドラフトモデルとして使用しています。
キャッシュを更新し、ドラフトモデルの品質を改善するため、SRTは進行中のロールアウトからオンラインツリーを更新し、アイドルGPUバブル中に積極的にランアヘッド生成を実行する。
標準的なRLパイプライン(\textit{e g }, PPO, GRPO, DAPO)とマルチターン設定に統合されたSRTは、継続して生成とステップのレイテンシを削減し、トーケン推論コストを低減し、ロールアウト時に最大228倍のウォールクロックタイムスピードアップを実現している。
関連論文リスト
- TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - FOREVER: Forgetting Curve-Inspired Memory Replay for Language Model Continual Learning [63.20028888397869]
FOREVER(FORgEtting curVe-inspired mEmory)は、リプレイスケジュールをモデル中心の時間の概念と整合させる新しいフレームワークである。
このアプローチに基づいて、ForeVERは、リプレイのタイミングを決定するための曲線ベースのリプレイスケジューラと、リプレイの方法を適応的に制御するインテンシティ対応の正規化機構を組み込んでいる。
論文 参考訳(メタデータ) (2026-01-07T13:55:14Z) - TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models [14.130608036489336]
強化学習(Reinforcement Learning, RL)のポストトレーニングは、生成モデルと人間の嗜好の整合に不可欠であるが、その禁止的な計算コストは、広く普及する上で大きな障壁である。
textbfTreeGRPOは,探索木としてdenoisingプロセスを再キャストすることで,トレーニング効率を劇的に向上させる新しいRLフレームワークである。
論文 参考訳(メタデータ) (2025-12-09T01:17:34Z) - Beat the long tail: Distribution-Aware Speculative Decoding for RL Training [75.75462952580796]
モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。
数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
論文 参考訳(メタデータ) (2025-11-17T19:02:12Z) - CoPRIS: Efficient and Stable Reinforcement Learning via Concurrency-Controlled Partial Rollout with Importance Sampling [11.252930904797]
重要サンプリングを用いた並列制御部分ロールアウト(CoPRIS)を提案する。
CoPRISは、一定数の同時ロールアウトを維持し、十分なサンプルが収集されたら早期終了し、その後のロールアウトで未完成のトラジェクトリを再利用することで、長いテールの非効率を緩和する。
実験の結果、CoPRISは同期RLシステムに匹敵する性能を維持しながら、最大1.94倍高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2025-11-05T11:39:32Z) - MACE: A Hybrid LLM Serving System with Colocated SLO-aware Continuous Retraining Alignment [14.392166280035122]
エッジサーバにデプロイされる大規模言語モデル(LLM)は、パーソナライズされたアシスタント、レコメンデーション、コンテンツモデレーションといった遅延に敏感なアプリケーションでますます利用されている。
既存のリトレーニング戦略は、モデル更新の遅延、再トレーニングのための過剰コミットリソース、イテレーションレベルのリトレーニングの粒度を見落としている。
我々は,同時推論(プリフィル,デコード)と微調整を同時に行うハイブリッドLLMシステムであるMACEを提案し,知的メモリ管理により,推論スループットを約束しながらタスク性能を最大化する。
論文 参考訳(メタデータ) (2025-09-28T18:45:28Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。