論文の概要: Learning to Stabilize Online Reinforcement Learning in Unbounded State
Spaces
- arxiv url: http://arxiv.org/abs/2306.01896v2
- Date: Tue, 13 Feb 2024 17:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 19:55:21.583068
- Title: Learning to Stabilize Online Reinforcement Learning in Unbounded State
Spaces
- Title(参考訳): 非有界状態空間におけるオンライン強化学習の安定化のための学習
- Authors: Brahma S. Pavse, Matthew Zurek, Yudong Chen, Qiaomin Xie, Josiah P.
Hanna
- Abstract要約: オンライントレーニング中の所望状態への距離を直接最小化する深いRLアルゴリズムは、しばしば不安定なポリシーをもたらすことを示す。
次に, リアプノフに基づくコスト形成手法と, 2) 境界のない状態空間への状態変換という2つの考え方に基づくアプローチを導入する。
- 参考スコア(独自算出の注目度): 14.53169400783724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many reinforcement learning (RL) applications, we want policies that reach
desired states and then keep the controlled system within an acceptable region
around the desired states over an indefinite period of time. This latter
objective is called stability and is especially important when the state space
is unbounded, such that the states can be arbitrarily far from each other and
the agent can drift far away from the desired states. For example, in
stochastic queuing networks, where queues of waiting jobs can grow without
bound, the desired state is all-zero queue lengths. Here, a stable policy
ensures queue lengths are finite while an optimal policy minimizes queue
lengths. Since an optimal policy is also stable, one would expect that RL
algorithms would implicitly give us stable policies. However, in this work, we
find that deep RL algorithms that directly minimize the distance to the desired
state during online training often result in unstable policies, i.e., policies
that drift far away from the desired state. We attribute this instability to
poor credit-assignment for destabilizing actions. We then introduce an approach
based on two ideas: 1) a Lyapunov-based cost-shaping technique and 2) state
transformations to the unbounded state space. We conduct an empirical study on
various queueing networks and traffic signal control problems and find that our
approach performs competitively against strong baselines with knowledge of the
transition dynamics.
- Abstract(参考訳): 多くの強化学習(RL)アプリケーションでは、所望の状態に到達し、制御されたシステムを所望の状態の周囲の許容範囲内に一定期間保持する政策が望まれる。
後者の目標は安定性と呼ばれ、状態空間が非有界である場合には特に重要であり、状態が互いに任意に遠く離れることができ、エージェントが所望の状態から遠ざかることができる。
例えば、待ちジョブのキューがバウンドなしで成長可能な確率的キューネットワークでは、望ましい状態は全ゼロのキュー長である。
ここで、安定したポリシーはキュー長が有限であることを保証する一方、最適なポリシーはキュー長を最小化する。
最適ポリシーも安定しているので、RLアルゴリズムが暗黙的に安定ポリシーを与えると期待する。
しかし,本研究では,オンライントレーニング中に所望の状態までの距離を最小化する深いrlアルゴリズムが不安定な政策,すなわち所望の状態から遠ざかる政策をもたらすことを発見した。
我々は、この不安定さを、不安定化行動に対する信用割り当ての低さによるものとみなす。
次に2つのアイデアに基づいたアプローチを紹介します
1)リアプノフベースのコストシェーピング技術と
2) 非有界状態空間への状態変換。
我々は,様々な待ち行列ネットワークとトラヒック信号制御問題に関する実証研究を行い,トランジッションダイナミクスの知識を持つ強力なベースラインに対して,このアプローチが競合的に動作することを見出した。
関連論文リスト
- Decision-Point Guided Safe Policy Improvement [22.885394395400592]
決定点RL(Decision Points RL、DPRL)は、改善のために考慮される状態-作用対(または連続状態の領域)のセットを制限するアルゴリズムである。
DPRLは、密接な訪問国からのデータを活用しながら、密接な訪問国における高信頼の向上を保証する。
論文 参考訳(メタデータ) (2024-10-12T04:05:56Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Policy Regularization with Dataset Constraint for Offline Reinforcement
Learning [27.868687398300658]
オフライン強化学習(Local Reinforcement Learning, RL)と呼ばれる,固定データセットから最善のポリシーを学習する問題を考察する。
本稿では、最も近い状態-作用対に対するポリシーの規則化がより効果的であることを発見し、データセット制約(PRDC)によるポリシーの規則化を提案する。
PRDCは、データセットから適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。
論文 参考訳(メタデータ) (2023-06-11T03:02:10Z) - Feasible Policy Iteration [28.29623882912745]
実装可能なポリシーイテレーションという,間接的に安全なRLフレームワークを提案する。
実現可能な領域が単調に膨張し、最大領域に収束することを保証している。
実験により,提案アルゴリズムは,正確な実現可能な領域で,厳密に安全かつほぼ最適なポリシーを学習することを示した。
論文 参考訳(メタデータ) (2023-04-18T09:18:37Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Adversarial Skill Chaining for Long-Horizon Robot Manipulation via
Terminal State Regularization [65.09725599705493]
過大な初期状態分布を伴わずに複数のポリシーをチェーンすることを提案する。
家具組立における2つの複雑な長軸操作タスクに対するアプローチを評価する。
提案手法は,これらの課題を解くためのモデルなし強化学習アルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-11-15T18:59:03Z) - Stable Reinforcement Learning with Unbounded State Space [27.053432445897016]
待ち行列ネットワークにおけるスケジューリングの古典的問題に動機づけられた非有界状態空間による強化学習の問題を考える。
有限、有界、あるいはコンパクトな状態空間のために設計されたエラー計量と同様に伝統的なポリシーは、意味のある性能を保証するために無限のサンプルを必要とする。
我々は「良さ」の概念として安定性を提案し、政策下の状態力学は高い確率で有界な領域に留まるべきである。
論文 参考訳(メタデータ) (2020-06-08T05:00:25Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。