論文の概要: Stochastic Resetting Accelerates Policy Convergence in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.16842v1
- Date: Tue, 17 Mar 2026 17:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.46007
- Title: Stochastic Resetting Accelerates Policy Convergence in Reinforcement Learning
- Title(参考訳): 確率的リセットは強化学習における政策収束を促進させる
- Authors: Jello Zhou, Vudtiwat Ngampruetikorn, David J. Schwab,
- Abstract要約: リセットは、ファーストパスプロパティを最適化するための強力なメカニズムである。
リセットは、純粋な拡散剤の探索時間を短縮しない場合でも収束を加速することを示す。
ニューラルネットワークに基づく値近似を用いた連続制御タスクにおいて、探索が困難な場合、ランダムリセットにより深層強化学習が向上することを示す。
- 参考スコア(独自算出の注目度): 5.900714266080361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic resetting, where a dynamical process is intermittently returned to a fixed reference state, has emerged as a powerful mechanism for optimizing first-passage properties. Existing theory largely treats static, non-learning processes. Here we ask how stochastic resetting interacts with reinforcement learning, where the underlying dynamics adapt through experience. In tabular grid environments, we find that resetting accelerates policy convergence even when it does not reduce the search time of a purely diffusive agent, indicating a novel mechanism beyond classical first-passage optimization. In a continuous control task with neural-network-based value approximation, we show that random resetting improves deep reinforcement learning when exploration is difficult and rewards are sparse. Unlike temporal discounting, resetting preserves the optimal policy while accelerating convergence by truncating long, uninformative trajectories to enhance value propagation. Our results establish stochastic resetting as a simple, tunable mechanism for accelerating learning, translating a canonical phenomenon of statistical mechanics into an optimization principle for reinforcement learning.
- Abstract(参考訳): 動的過程を間欠的に一定基準状態に戻す確率的リセットは、第一通過特性を最適化するための強力なメカニズムとして現れている。
既存の理論は主に静的な非学習プロセスを扱う。
ここでは、確率的リセットが強化学習とどのように相互作用するかを問う。
表表グリッド環境において、リセットは、純粋な拡散エージェントの探索時間を短縮しない場合でもポリシー収束を加速し、古典的なファーストパス最適化を超えた新しいメカニズムを示す。
ニューラルネットワークに基づく値近似を用いた連続制御タスクにおいて、探索が困難で報酬が不足している場合、ランダムリセットにより深層強化学習が向上することを示す。
時間的割引とは異なり、リセットは、値の伝播を高めるために長く非形式的な軌跡を逸脱することで収束を加速させながら、最適なポリシーを保っている。
本研究は,統計的力学の正準現象を強化学習の最適化原理に翻訳し,学習を加速するためのシンプルでチューニング可能なメカニズムとして確率的リセットを確立した。
関連論文リスト
- Variance Reduction Based Experience Replay for Policy Optimization [3.7128732378843394]
Variance Reduction Experience Replay (VRER) は、ポリシー勾配推定におけるばらつきを低減するために、情報的サンプルを選択的に再利用する原則的なフレームワークである。
VRERはアルゴリズムに依存しず、既存のポリシー最適化手法とシームレスに統合される。
我々は,VRERが政策学習を継続的に加速し,最先端の政策最適化アルゴリズムよりも性能を向上させることを示す。
論文 参考訳(メタデータ) (2026-02-05T06:58:28Z) - Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - Online Continual Learning for Time Series: a Natural Score-driven Approach [2.8989185098518626]
オンライン連続学習(OCL)手法は、過去の知識を忘れずに環境の変化に適応する。
オンライン時系列予測(OTSF)は、データが時間とともに進化し、成功は、迅速な適応と長期記憶の両方に依存する現実世界の問題である。
本稿では,時系列法とOCLの理論的および実践的関係を強化することを目的とする。
論文 参考訳(メタデータ) (2026-01-19T10:31:01Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Non-Stationary Learning of Neural Networks with Automatic Soft Parameter Reset [98.52916361979503]
非定常性を自動的にモデル化し適応する新しい学習手法を導入する。
非定常的・非政治的強化学習環境において,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2024-11-06T16:32:40Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - Losing momentum in continuous-time stochastic optimisation [42.617042045455506]
運動量に基づく最適化アルゴリズムは 特に広まりました
本研究では、運動量を伴う勾配降下の連続時間モデルを解析する。
また、画像分類問題において畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-08T10:46:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。