Fugu-MT 論文翻訳(概要): Beat the long tail: Distribution-Aware Speculative Decoding for RL Training

論文の概要: Beat the long tail: Distribution-Aware Speculative Decoding for RL Training

arxiv url: http://arxiv.org/abs/2511.13841v1
Date: Mon, 17 Nov 2025 19:02:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-19 16:23:52.753879
Title: Beat the long tail: Distribution-Aware Speculative Decoding for RL Training
Title（参考訳）: 長い尾を叩く:RLトレーニングのための分布認識投機的復号法
Authors: Zelei Shao, Vikranth Srivatsa, Sanjana Srivastava, Qingyang Wu, Alpay Ariyak, Xiaoxia Wu, Ameen Patel, Jue Wang, Percy Liang, Tri Dao, Ce Zhang, Yiying Zhang, Ben Athiwaratkun, Chenfeng Xu, Junxiong Wang,
Abstract要約: モデル出力を変更することなくRLロールアウトを高速化する分散Aware Speculativeデコーディングフレームワークを提案する。数学とコード推論タスクの実験は、DASが同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮することを示している。
参考スコア（独自算出の注目度）: 75.75462952580796
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning(RL) post-training has become essential for aligning large language models (LLMs), yet its efficiency is increasingly constrained by the rollout phase, where long trajectories are generated token by token. We identify a major bottleneck:the long-tail distribution of rollout lengths, where a small fraction of long generations dominates wall clock time and a complementary opportunity; the availability of historical rollouts that reveal stable prompt level patterns across training epochs. Motivated by these observations, we propose DAS, a Distribution Aware Speculative decoding framework that accelerates RL rollouts without altering model outputs. DAS integrates two key ideas: an adaptive, nonparametric drafter built from recent rollouts using an incrementally maintained suffix tree, and a length aware speculation policy that allocates more aggressive draft budgets to long trajectories that dominate makespan. This design exploits rollout history to sustain acceptance while balancing base and token level costs during decoding. Experiments on math and code reasoning tasks show that DAS reduces rollout time up to 50% while preserving identical training curves, demonstrating that distribution-aware speculative decoding can significantly accelerate RL post training without compromising learning quality.
Abstract（参考訳）: 大規模言語モデル(LLM)の整列には強化学習(RL)ポストトレーニングが不可欠だが,その効率性は,トークンによって長いトラジェクトリが生成されるロールアウトフェーズによってますます制限されている。ロールアウト長の長期分布では,ウォールクロック時間と相補的な機会が少数の世代で支配されている。これらの観測により、モデル出力を変更することなく、RLロールアウトを高速化する分散Aware Speculative DecodingフレームワークであるDASを提案する。適応的で非パラメトリックなドラフトは、漸進的に保守された接尾辞木を使用して最近のロールアウトから構築され、より積極的なドラフト予算を、メースパンを支配する長い軌跡に割り当てる、長く意識された投機ポリシーである。この設計はロールアウト履歴を利用して、デコード時のベースレベルとトークンレベルのコストのバランスを保ちながら、受け入れを維持する。数学とコード推論タスクの実験では、DASは同一のトレーニング曲線を保ちながらロールアウト時間を最大50%短縮し、分散対応の投機的復号化が学習品質を損なうことなくRLポストトレーニングを著しく加速することを示した。

関連論文リスト

Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning [6.742598086990326]
強化学習(RL)は、現代の大規模言語モデル(LLM)の進展に欠かせないものとなっているが、既存の同期RLシステムは、重大なパフォーマンスボトルネックに直面している。従来見過ごされていた出力長と生成パターンの類似性を利用して,同じプロンプトを共有することで,これらの課題に対処する新しいオンラインコンテキスト学習システムであるSeerを提案する。 Seer氏は、動的ロードバランシングのための分割ロールアウト、コンテキスト対応スケジューリング、適応的なグループ化された投機的デコーディングの3つの主要なテクニックを紹介している。
論文参考訳（メタデータ） (2025-11-18T16:12:21Z)
CoPRIS: Efficient and Stable Reinforcement Learning via Concurrency-Controlled Partial Rollout with Importance Sampling [11.252930904797]
重要サンプリングを用いた並列制御部分ロールアウト(CoPRIS)を提案する。 CoPRISは、一定数の同時ロールアウトを維持し、十分なサンプルが収集されたら早期終了し、その後のロールアウトで未完成のトラジェクトリを再利用することで、長いテールの非効率を緩和する。実験の結果、CoPRISは同期RLシステムに匹敵する性能を維持しながら、最大1.94倍高速なトレーニングを実現している。
論文参考訳（メタデータ） (2025-11-05T11:39:32Z)
DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。 DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文参考訳（メタデータ） (2025-10-16T20:05:57Z)
BroRL: Scaling Reinforcement Learning via Broadened Exploration [88.69554867685243]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルにおいて複雑な推論能力を解き放つ鍵となる要素として登場した。最近のProRLは、トレーニングステップの数を増やすことで、RLのスケーリングを約束している。 RL, BroR-Lineasing the followingary paradigm for scaling RL, BroR-Lincreasing the rollouts per example to hundreds。
論文参考訳（メタデータ） (2025-10-01T17:59:02Z)
DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文参考訳（メタデータ） (2025-09-28T07:00:15Z)
SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts [35.82325476805143]
SPEC-RLは、SPECulativeデコーディングとRLロールアウトプロセスを統合するフレームワークである。政策品質を損なうことなく、ロールアウト時間を2～3倍に短縮する。純粋にロールアウトステージの強化として、SPEC-RLはメインストリームのアルゴリズムとシームレスに統合される。
論文参考訳（メタデータ） (2025-09-27T10:32:34Z)
History Rhymes: Accelerating LLM Reinforcement Learning with RhymeRL [14.506189610798929]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための重要な方法論として登場した。 RhymeRLは、RLトレーニングを2つの重要なイノベーションで加速するLLM RLシステムである。まず、ロールアウト生成を強化するために、投機的復号推論エンジンであるHistoSpecを紹介する。第二に、ロールアウトバブルに取り組むために、2層スケジューリング戦略であるHistoPipeを紹介します。
論文参考訳（メタデータ） (2025-08-26T01:42:46Z)
Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning [55.41828729623907]
本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
論文参考訳（メタデータ） (2025-06-06T05:40:39Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Demystifying Long Chain-of-Thought Reasoning in LLMs [46.352406501403465]
ロングチェーン・オブ・シント(CoT)は、バックトラックやエラー修正のような戦略を可能にする。強化学習(Reinforcement Learning, RL)は、これらの能力を開発する上で重要な方法である。モデルが長いCoT軌道を生成できる重要な要素を同定する。
論文参考訳（メタデータ） (2025-02-05T17:13:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。