論文の概要: Staggered Environment Resets Improve Massively Parallel On-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.21011v1
- Date: Wed, 26 Nov 2025 03:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.944243
- Title: Staggered Environment Resets Improve Massively Parallel On-Policy Reinforcement Learning
- Title(参考訳): 大規模並列型オンライン強化学習における重み付き環境リセット
- Authors: Sid Bharthulwar, Stone Tao, Hao Su,
- Abstract要約: 大規模並列GPUシミュレーション環境は強化学習(RL)研究を加速させた。
標準同期リセットは有害な非定常性を導入し、学習信号を揺らし、トレーニングを不安定にする。
タスクホライズ内の様々な点で環境をリセットする,シンプルかつ効果的な手法であるスタッガードリセットを導入する。
- 参考スコア(独自算出の注目度): 18.760525047404098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massively parallel GPU simulation environments have accelerated reinforcement learning (RL) research by enabling fast data collection for on-policy RL algorithms like Proximal Policy Optimization (PPO). To maximize throughput, it is common to use short rollouts per policy update, increasing the update-to-data (UTD) ra- tio. However, we find that, in this setting, standard synchronous resets introduce harmful nonstationarity, skewing the learning signal and destabilizing training. We introduce staggered resets, a simple yet effective technique where environments are initialized and reset at varied points within the task horizon. This yields training batches with greater temporal diversity, reducing the nonstationarity induced by synchronized rollouts. We characterize dimensions along which RL environments can benefit significantly from staggered resets through illustrative toy environ- ments. We then apply this technique to challenging high-dimensional robotics environments, achieving significantly higher sample efficiency, faster wall-clock convergence, and stronger final performance. Finally, this technique scales better with more parallel environments compared to naive synchronized rollouts.
- Abstract(参考訳): 大規模並列GPUシミュレーション環境は、PPO(Proximal Policy Optimization)のようなオンラインRLアルゴリズムの高速なデータ収集を可能にすることにより、強化学習(RL)の研究を加速した。
スループットを最大化するために、ポリシー更新毎にショートロールアウトを使用することが一般的であり、更新・トゥ・データ(UTD)のra-tioが増加する。
しかし、この設定では、標準同期リセットは有害な非定常性を導入し、学習信号を揺らし、トレーニングを不安定にする。
タスクホライズ内の様々な点において環境を初期化してリセットする,シンプルかつ効果的な手法であるスタッガードリセットを導入する。
これにより、時間的多様性の高いトレーニングバッチが得られ、同期ロールアウトによって誘導される非定常性が低減される。
我々は、RL環境が、挿絵的なおもちゃのエンビロンメントを通して、停滞したリセットから大きな恩恵を受けることができる次元を特徴づける。
次に, この手法を高次元ロボット環境に適用し, 試料効率の向上, 壁面収束の高速化, 最終性能の向上を実現した。
最後に、このテクニックは、単純で同期化されたロールアウトに比べて、より並列な環境でのスケーリングが優れている。
関連論文リスト
- Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning [45.51804571136028]
強化学習(RL)は、大規模言語モデル(LLM)における推論の強化の中心となっている。
Slow-Fast Policy Optimization (SFPO)は,各ステップを3段階に分解することで,これらの制限に対処する,シンプルかつ効率的なフレームワークである。
SFPOは安定性を継続的に改善し、ロールアウトを低減し、推論RLトレーニングの収束を加速する。
論文 参考訳(メタデータ) (2025-10-05T07:22:54Z) - TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs [67.55973229034319]
本稿では,マルチモーダルな大規模言語モデル(MLLM)をビデオ時間的グラウンド処理に適応させることの有効性向上を目的とした,新しい強化微調整フレームワークであるTempSamp-R1を紹介する。
我々は、TempSamp-R1がGRPOベースのベースラインより優れており、ベンチマークデータセット上で新しい最先端のパフォーマンスを確立していることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:15Z) - Sample-efficient LLM Optimization with Reset Replay [13.739451157239756]
Reset Replay (LoRR) は、任意の好みベースの最適化フレームワークにおいて、サンプリング効率を高めるために設計されたプラグインである。
LoRRは、ネットワークの可塑性を保存する初期データを再利用する定期的なリセット戦略を取り入れている。
実験により,LoRRは数学的および一般的な推論ベンチマークにおいて,様々な選好最適化手法の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-08-08T15:56:49Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。
我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。
これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。