論文の概要: Tackling Unbounded State Spaces in Continuing Task Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2306.01896v1
- Date: Fri, 2 Jun 2023 20:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 23:21:41.247873
- Title: Tackling Unbounded State Spaces in Continuing Task Reinforcement
Learning
- Title(参考訳): タスク強化学習における非有界状態空間の対応
- Authors: Brahma S. Pavse, Yudong Chen, Qiaomin Xie, Josiah P. Hanna
- Abstract要約: 深層強化学習アルゴリズムは、リセットの欠如により回復不可能な状態に分岐しうることを示す。
我々は、まずエージェントが安定することを学習し、次に最適なことを学習するように促す、Lynovにインスパイアされた報酬形成アプローチを導入する。
これらの手法により、オンラインの非変換状態領域を学習する際に、深いRLアルゴリズムがハイパフォーマンスなポリシーを学習できることがわかった。
- 参考スコア(独自算出の注目度): 16.655180213017537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep reinforcement learning (RL) algorithms have been successfully
applied to many tasks, their inability to extrapolate and strong reliance on
episodic resets inhibits their applicability to many real-world settings. For
instance, in stochastic queueing problems, the state space can be unbounded and
the agent may have to learn online without the system ever being reset to
states the agent has seen before. In such settings, we show that deep RL agents
can diverge into unseen states from which they can never recover due to the
lack of resets, especially in highly stochastic environments. Towards
overcoming this divergence, we introduce a Lyapunov-inspired reward shaping
approach that encourages the agent to first learn to be stable (i.e. to achieve
bounded cost) and then to learn to be optimal. We theoretically show that our
reward shaping technique reduces the rate of divergence of the agent and
empirically find that it prevents it. We further combine our reward shaping
approach with a weight annealing scheme that gradually introduces optimality
and log-transform of state inputs, and find that these techniques enable deep
RL algorithms to learn high performing policies when learning online in
unbounded state space domains.
- Abstract(参考訳): 深層強化学習(RL)アルゴリズムは多くのタスクにうまく適用されているが、エピソードリセットへの強い依存と外挿ができないため、現実世界の多くの設定に適用できない。
例えば、確率的待ち行列問題では、状態空間はアンバウンドされ、エージェントは、エージェントが以前見た状態にリセットされることなく、オンラインで学習する必要がある。
このような環境では、特に確率的環境において、深いRLエージェントがリセットの欠如により回復できない状態に分岐できることが示される。
この分散を克服するために、我々はリアプノフにインスパイアされた報酬形成アプローチを導入し、エージェントが安定であること(すなわち、限界コストを達成するために)を学び、次に最適なことを学ぶことを奨励する。
理論上,報酬形成手法はエージェントの発散率を減少させ,その防止効果を実証的に確認する。
さらに,これらの手法により,ステート入力の最適性とログ変換を徐々に導入し,非境界状態領域でオンライン学習時に,深いrlアルゴリズムがハイパフォーマンスなポリシを学習できることを見出した。
関連論文リスト
- Decision-Point Guided Safe Policy Improvement [22.885394395400592]
決定点RL(Decision Points RL、DPRL)は、改善のために考慮される状態-作用対(または連続状態の領域)のセットを制限するアルゴリズムである。
DPRLは、密接な訪問国からのデータを活用しながら、密接な訪問国における高信頼の向上を保証する。
論文 参考訳(メタデータ) (2024-10-12T04:05:56Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Policy Regularization with Dataset Constraint for Offline Reinforcement
Learning [27.868687398300658]
オフライン強化学習(Local Reinforcement Learning, RL)と呼ばれる,固定データセットから最善のポリシーを学習する問題を考察する。
本稿では、最も近い状態-作用対に対するポリシーの規則化がより効果的であることを発見し、データセット制約(PRDC)によるポリシーの規則化を提案する。
PRDCは、データセットから適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。
論文 参考訳(メタデータ) (2023-06-11T03:02:10Z) - Feasible Policy Iteration [28.29623882912745]
実装可能なポリシーイテレーションという,間接的に安全なRLフレームワークを提案する。
実現可能な領域が単調に膨張し、最大領域に収束することを保証している。
実験により,提案アルゴリズムは,正確な実現可能な領域で,厳密に安全かつほぼ最適なポリシーを学習することを示した。
論文 参考訳(メタデータ) (2023-04-18T09:18:37Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Adversarial Skill Chaining for Long-Horizon Robot Manipulation via
Terminal State Regularization [65.09725599705493]
過大な初期状態分布を伴わずに複数のポリシーをチェーンすることを提案する。
家具組立における2つの複雑な長軸操作タスクに対するアプローチを評価する。
提案手法は,これらの課題を解くためのモデルなし強化学習アルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-11-15T18:59:03Z) - Stable Reinforcement Learning with Unbounded State Space [27.053432445897016]
待ち行列ネットワークにおけるスケジューリングの古典的問題に動機づけられた非有界状態空間による強化学習の問題を考える。
有限、有界、あるいはコンパクトな状態空間のために設計されたエラー計量と同様に伝統的なポリシーは、意味のある性能を保証するために無限のサンプルを必要とする。
我々は「良さ」の概念として安定性を提案し、政策下の状態力学は高い確率で有界な領域に留まるべきである。
論文 参考訳(メタデータ) (2020-06-08T05:00:25Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。