論文の概要: Staggered Environment Resets Improve Massively Parallel On-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.21011v1
- Date: Wed, 26 Nov 2025 03:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.944243
- Title: Staggered Environment Resets Improve Massively Parallel On-Policy Reinforcement Learning
- Title(参考訳): 大規模並列型オンライン強化学習における重み付き環境リセット
- Authors: Sid Bharthulwar, Stone Tao, Hao Su,
- Abstract要約: 大規模並列GPUシミュレーション環境は強化学習(RL)研究を加速させた。
標準同期リセットは有害な非定常性を導入し、学習信号を揺らし、トレーニングを不安定にする。
タスクホライズ内の様々な点で環境をリセットする,シンプルかつ効果的な手法であるスタッガードリセットを導入する。
- 参考スコア(独自算出の注目度): 18.760525047404098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massively parallel GPU simulation environments have accelerated reinforcement learning (RL) research by enabling fast data collection for on-policy RL algorithms like Proximal Policy Optimization (PPO). To maximize throughput, it is common to use short rollouts per policy update, increasing the update-to-data (UTD) ra- tio. However, we find that, in this setting, standard synchronous resets introduce harmful nonstationarity, skewing the learning signal and destabilizing training. We introduce staggered resets, a simple yet effective technique where environments are initialized and reset at varied points within the task horizon. This yields training batches with greater temporal diversity, reducing the nonstationarity induced by synchronized rollouts. We characterize dimensions along which RL environments can benefit significantly from staggered resets through illustrative toy environ- ments. We then apply this technique to challenging high-dimensional robotics environments, achieving significantly higher sample efficiency, faster wall-clock convergence, and stronger final performance. Finally, this technique scales better with more parallel environments compared to naive synchronized rollouts.
- Abstract(参考訳): 大規模並列GPUシミュレーション環境は、PPO(Proximal Policy Optimization)のようなオンラインRLアルゴリズムの高速なデータ収集を可能にすることにより、強化学習(RL)の研究を加速した。
スループットを最大化するために、ポリシー更新毎にショートロールアウトを使用することが一般的であり、更新・トゥ・データ(UTD)のra-tioが増加する。
しかし、この設定では、標準同期リセットは有害な非定常性を導入し、学習信号を揺らし、トレーニングを不安定にする。
タスクホライズ内の様々な点において環境を初期化してリセットする,シンプルかつ効果的な手法であるスタッガードリセットを導入する。
これにより、時間的多様性の高いトレーニングバッチが得られ、同期ロールアウトによって誘導される非定常性が低減される。
我々は、RL環境が、挿絵的なおもちゃのエンビロンメントを通して、停滞したリセットから大きな恩恵を受けることができる次元を特徴づける。
次に, この手法を高次元ロボット環境に適用し, 試料効率の向上, 壁面収束の高速化, 最終性能の向上を実現した。
最後に、このテクニックは、単純で同期化されたロールアウトに比べて、より並列な環境でのスケーリングが優れている。
関連論文リスト
- When Learning Hurts: Fixed-Pole RNN for Real-Time Online Training [58.25341036646294]
本研究では,再帰性極の学習がデータに有意な利点をもたらしない理由を解析的に検討し,実時間学習シナリオを実証的に提供する。
固定極ネットワークは、トレーニングの複雑さを低減し、オンラインリアルタイムタスクにより適していることを示す。
論文 参考訳(メタデータ) (2026-02-25T00:15:13Z) - Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs [19.079556051442168]
強化学習(Reinforcement Learning, RL)は、推論タスクにおける大規模言語モデルの改善に広く用いられている。
しかし、REINFORCE や GRPO のような広く採用されている批判のない政策段階的手法では、高い非同期性によって政策段階的推定器は明らかにノイズを生じさせる。
本稿では,REINFORCE/GRPOスタイルのアルゴリズムの安定化手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T18:40:51Z) - Online Continual Learning for Time Series: a Natural Score-driven Approach [2.8989185098518626]
オンライン連続学習(OCL)手法は、過去の知識を忘れずに環境の変化に適応する。
オンライン時系列予測(OTSF)は、データが時間とともに進化し、成功は、迅速な適応と長期記憶の両方に依存する現実世界の問題である。
本稿では,時系列法とOCLの理論的および実践的関係を強化することを目的とする。
論文 参考訳(メタデータ) (2026-01-19T10:31:01Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning [45.51804571136028]
強化学習(RL)は、大規模言語モデル(LLM)における推論の強化の中心となっている。
Slow-Fast Policy Optimization (SFPO)は,各ステップを3段階に分解することで,これらの制限に対処する,シンプルかつ効率的なフレームワークである。
SFPOは安定性を継続的に改善し、ロールアウトを低減し、推論RLトレーニングの収束を加速する。
論文 参考訳(メタデータ) (2025-10-05T07:22:54Z) - TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs [67.55973229034319]
本稿では,マルチモーダルな大規模言語モデル(MLLM)をビデオ時間的グラウンド処理に適応させることの有効性向上を目的とした,新しい強化微調整フレームワークであるTempSamp-R1を紹介する。
我々は、TempSamp-R1がGRPOベースのベースラインより優れており、ベンチマークデータセット上で新しい最先端のパフォーマンスを確立していることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:15Z) - Sample-efficient LLM Optimization with Reset Replay [13.739451157239756]
Reset Replay (LoRR) は、任意の好みベースの最適化フレームワークにおいて、サンプリング効率を高めるために設計されたプラグインである。
LoRRは、ネットワークの可塑性を保存する初期データを再利用する定期的なリセット戦略を取り入れている。
実験により,LoRRは数学的および一般的な推論ベンチマークにおいて,様々な選好最適化手法の性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-08-08T15:56:49Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。
我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。
これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。