論文の概要: Learning to Stabilize Online Reinforcement Learning in Unbounded State Spaces
- arxiv url: http://arxiv.org/abs/2306.01896v3
- Date: Sun, 26 May 2024 23:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 12:28:18.070357
- Title: Learning to Stabilize Online Reinforcement Learning in Unbounded State Spaces
- Title(参考訳): 非有界な状態空間におけるオンライン強化学習の安定化のための学習
- Authors: Brahma S. Pavse, Matthew Zurek, Yudong Chen, Qiaomin Xie, Josiah P. Hanna,
- Abstract要約: 多くの強化学習(RL)応用において、我々は望ましい状態に到達し、制御されたシステムを許容範囲内に維持する政策を望んでいる。
本研究では,オンライントレーニング中の所望状態への距離を直接最小化する深いRLアルゴリズムが,しばしば不安定なポリシーをもたらすことを発見した。
1)リアプノフに基づくコスト形成手法と,2)非有界状態空間への状態変換の2つの考え方に基づくアプローチを導入する。
- 参考スコア(独自算出の注目度): 13.544995860887298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many reinforcement learning (RL) applications, we want policies that reach desired states and then keep the controlled system within an acceptable region around the desired states over an indefinite period of time. This latter objective is called stability and is especially important when the state space is unbounded, such that the states can be arbitrarily far from each other and the agent can drift far away from the desired states. For example, in stochastic queuing networks, where queues of waiting jobs can grow without bound, the desired state is all-zero queue lengths. Here, a stable policy ensures queue lengths are finite while an optimal policy minimizes queue lengths. Since an optimal policy is also stable, one would expect that RL algorithms would implicitly give us stable policies. However, in this work, we find that deep RL algorithms that directly minimize the distance to the desired state during online training often result in unstable policies, i.e., policies that drift far away from the desired state. We attribute this instability to poor credit-assignment for destabilizing actions. We then introduce an approach based on two ideas: 1) a Lyapunov-based cost-shaping technique and 2) state transformations to the unbounded state space. We conduct an empirical study on various queueing networks and traffic signal control problems and find that our approach performs competitively against strong baselines with knowledge of the transition dynamics. Our code is available here: https://github.com/Badger-RL/STOP.
- Abstract(参考訳): 多くの強化学習(RL)アプリケーションでは、所望の状態に到達し、制御されたシステムを所望の状態の周囲の許容範囲内に一定期間保持する政策が望まれる。
この後者の目的は安定性と呼ばれ、状態空間が非有界であるときに特に重要である。
例えば、待ちジョブのキューがバウンドなしで成長可能な確率的キューネットワークでは、望ましい状態は全ゼロのキュー長である。
ここでは、安定したポリシはキュー長が有限であることを保証する一方で、最適なポリシはキュー長を最小化する。
最適ポリシーも安定しているので、RLアルゴリズムが暗黙的に安定ポリシーを与えると期待する。
しかし、本研究では、オンライントレーニング中に、望まれる状態との距離を直接最小化する深いRLアルゴリズムが、しばしば不安定なポリシー、すなわち、望まれる状態から遠ざかるポリシーをもたらすことを発見した。
我々は、この不安定さを、不安定化行動に対する信用割り当ての低さによるものとみなす。
次に、2つのアイデアに基づいたアプローチを紹介します。
1)リャプノフを基盤としたコスト形成技術及び方法
2)非有界状態空間への状態変換。
様々な待ち行列ネットワークや交通信号制御問題に関する実証的研究を行い、遷移力学の知識を生かした強力なベースラインに対して,本手法が競争力を発揮することを発見した。
私たちのコードは、https://github.com/Badger-RL/STOP.comで利用可能です。
関連論文リスト
- Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Policy Regularization with Dataset Constraint for Offline Reinforcement
Learning [27.868687398300658]
オフライン強化学習(Local Reinforcement Learning, RL)と呼ばれる,固定データセットから最善のポリシーを学習する問題を考察する。
本稿では、最も近い状態-作用対に対するポリシーの規則化がより効果的であることを発見し、データセット制約(PRDC)によるポリシーの規則化を提案する。
PRDCは、データセットから適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。
論文 参考訳(メタデータ) (2023-06-11T03:02:10Z) - Feasible Policy Iteration [28.29623882912745]
実装可能なポリシーイテレーションという,間接的に安全なRLフレームワークを提案する。
実現可能な領域が単調に膨張し、最大領域に収束することを保証している。
実験により,提案アルゴリズムは,正確な実現可能な領域で,厳密に安全かつほぼ最適なポリシーを学習することを示した。
論文 参考訳(メタデータ) (2023-04-18T09:18:37Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Adversarial Skill Chaining for Long-Horizon Robot Manipulation via
Terminal State Regularization [65.09725599705493]
過大な初期状態分布を伴わずに複数のポリシーをチェーンすることを提案する。
家具組立における2つの複雑な長軸操作タスクに対するアプローチを評価する。
提案手法は,これらの課題を解くためのモデルなし強化学習アルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-11-15T18:59:03Z) - Stable Reinforcement Learning with Unbounded State Space [27.053432445897016]
待ち行列ネットワークにおけるスケジューリングの古典的問題に動機づけられた非有界状態空間による強化学習の問題を考える。
有限、有界、あるいはコンパクトな状態空間のために設計されたエラー計量と同様に伝統的なポリシーは、意味のある性能を保証するために無限のサンプルを必要とする。
我々は「良さ」の概念として安定性を提案し、政策下の状態力学は高い確率で有界な領域に留まるべきである。
論文 参考訳(メタデータ) (2020-06-08T05:00:25Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。