論文の概要: Solving Constrained Reinforcement Learning through Augmented State and
Reward Penalties
- arxiv url: http://arxiv.org/abs/2301.11592v1
- Date: Fri, 27 Jan 2023 08:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 16:04:00.618595
- Title: Solving Constrained Reinforcement Learning through Augmented State and
Reward Penalties
- Title(参考訳): 強化状態と逆罰による制約付き強化学習の解法
- Authors: Hao Jiang and Tien Mai and Pradeep Varakantham
- Abstract要約: 主な課題は、ポリシーを使用して蓄積された期待されるコストを扱うことだ。
既存の手法は、政策全体に対するこのコスト制約を、局所的な決定に対する制約に変換する革新的な方法を開発した。
我々は、拡張状態空間と報酬ペナルティを有する制約付きRLに等価な制約のない定式化を提供する。
- 参考スコア(独自算出の注目度): 9.963045649042009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constrained Reinforcement Learning has been employed to enforce safety
constraints on policy through the use of expected cost constraints. The key
challenge is in handling expected cost accumulated using the policy and not
just in a single step. Existing methods have developed innovative ways of
converting this cost constraint over entire policy to constraints over local
decisions (at each time step). While such approaches have provided good
solutions with regards to objective, they can either be overly aggressive or
conservative with respect to costs. This is owing to use of estimates for
"future" or "backward" costs in local cost constraints.
To that end, we provide an equivalent unconstrained formulation to
constrained RL that has an augmented state space and reward penalties. This
intuitive formulation is general and has interesting theoretical properties.
More importantly, this provides a new paradigm for solving constrained RL
problems effectively. As we show in our experimental results, we are able to
outperform leading approaches on multiple benchmark problems from literature.
- Abstract(参考訳): 制約付き強化学習は、期待されるコスト制約を利用することで、ポリシーに安全性の制約を課すために採用されている。
重要な課題は、単一のステップではなく、ポリシーを使って累積される期待されるコストに対処することだ。
既存の手法は、ポリシー全体に対するこのコスト制約を(各ステップで)局所的な決定に関する制約に変換する革新的な方法を開発した。
このようなアプローチは客観的な解決策を提供してきたが、コストに関して過度に攻撃的あるいは保守的である可能性がある。
これは、局所的なコスト制約の「将来の」コストや「後方」コストの見積もりを使用するためである。
そのために、拡張状態空間と報酬ペナルティを持つ制約付きRLに等価な制約のない定式化を提供する。
この直感的な定式化は一般であり、興味深い理論的性質を持つ。
さらに重要なのは、制約付きRL問題を効果的に解くための新しいパラダイムを提供することだ。
実験結果に示すように、文献から複数のベンチマーク問題に対する先行的アプローチを上回ることができる。
関連論文リスト
- Off-Policy Primal-Dual Safe Reinforcement Learning [16.918188277722503]
本研究では, 累積コスト推定における誤差が, 法外手法を用いた場合のコストの大幅な過小評価を引き起こすことを示す。
本稿では,予測の不確実性を考慮し,制約充足領域の政策を学習する保守的な政策最適化を提案する。
次に,評価の不確実性を徐々に減少させることにより,そのような過小評価の解消を支援するために,局所的な政策凸化を導入する。
論文 参考訳(メタデータ) (2024-01-26T10:33:38Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning [11.666700714916065]
制約付きRLは強化学習における安全な行動を実施するためのフレームワークである。
制約付きRLを解くための最近の手法は、軌道に基づくコスト制約を代理問題に変換する。
トラジェクトリに基づくコスト制約を変更しず、代わりにグッドのトラジェクトリを模倣するアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T08:48:46Z) - Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning [20.280636126917614]
目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理される。
本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。
CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
論文 参考訳(メタデータ) (2023-02-21T12:57:12Z) - SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning [64.33956692265419]
オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-28T13:57:01Z) - AutoCost: Evolving Intrinsic Cost for Zero-violation Reinforcement
Learning [3.4806267677524896]
我々は、制約付きRLがゼロ違反性能を達成するのに役立つコスト関数を自動的に検索するフレームワークであるAutoCostを提案する。
我々は,我々のコスト関数を用いた補助エージェントの性能を,同じ政策学習者を用いたベースラインエージェントに付加的な内在的コストを与えるために,外在的コストのみを伴って比較した。
論文 参考訳(メタデータ) (2023-01-24T22:51:29Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。