論文の概要: Deep Constrained Q-learning
- arxiv url: http://arxiv.org/abs/2003.09398v2
- Date: Mon, 14 Sep 2020 15:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 22:18:45.509811
- Title: Deep Constrained Q-learning
- Title(参考訳): 深い制約付きQ-ラーニング
- Authors: Gabriel Kalweit and Maria Huegle and Moritz Werling and Joschka
Boedecker
- Abstract要約: 多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
- 参考スコア(独自算出の注目度): 15.582910645906145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real world applications, reinforcement learning agents have to
optimize multiple objectives while following certain rules or satisfying a list
of constraints. Classical methods based on reward shaping, i.e. a weighted
combination of different objectives in the reward signal, or Lagrangian
methods, including constraints in the loss function, have no guarantees that
the agent satisfies the constraints at all points in time and can lead to
undesired behavior. When a discrete policy is extracted from an action-value
function, safe actions can be ensured by restricting the action space at
maximization, but can lead to sub-optimal solutions among feasible
alternatives. In this work, we propose Constrained Q-learning, a novel
off-policy reinforcement learning framework restricting the action space
directly in the Q-update to learn the optimal Q-function for the induced
constrained MDP and the corresponding safe policy. In addition to single-step
constraints referring only to the next action, we introduce a formulation for
approximate multi-step constraints under the current target policy based on
truncated value-functions. We analyze the advantages of Constrained Q-learning
in the tabular case and compare Constrained DQN to reward shaping and
Lagrangian methods in the application of high-level decision making in
autonomous driving, considering constraints for safety, keeping right and
comfort. We train our agent in the open-source simulator SUMO and on the real
HighD data set.
- Abstract(参考訳): 多くの実世界のアプリケーションでは、強化学習エージェントは特定のルールに従いながら複数の目的を最適化するか、制約のリストを満たす必要がある。
報酬のシェーピングに基づく古典的な手法、すなわち報酬信号における異なる目的の重み付けの組み合わせ、または損失関数の制約を含むラグランジアン法は、エージェントがすべての時点における制約を満たす保証がなく、望ましくない行動につながる可能性がある。
離散ポリシーがアクション値関数から抽出されると、最大化時にアクション空間を制限することで安全なアクションが保証されるが、実現可能な選択肢間での最適化ソリューションにつながる可能性がある。
本研究では,制約付きMDPの最適Q-関数とそれに対応する安全ポリシーを学習するために,Q-updateのアクション空間を直接制限する新しい非政治強化学習フレームワークであるConstrained Q-learningを提案する。
本稿では,次の動作のみを参照する単段制約に加えて,停止値関数に基づく現在の目標方針の下での近似多段制約の定式化を提案する。
本研究は,自律運転における高次意思決定の適用において,制約付きQ-ラーニングの利点を分析し,制約付きDQNを報酬形成法とラグランジアン法と比較する。
我々はオープンソースのシミュレータSUMOと実際のHighDデータセットでエージェントを訓練する。
関連論文リスト
- Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。
提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。
また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:42:10Z) - Constrained Reinforcement Learning with Smoothed Log Barrier Function [27.216122901635018]
CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function) と呼ばれる新しい制約付きRL法を提案する。
線形スムーズなログバリア関数を追加の安全評論家に適用することにより、事前トレーニングなしで競争性能を達成する。
CSAC-LBでは,様々な難易度を有する制約付き制御タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T16:02:52Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Direct Behavior Specification via Constrained Reinforcement Learning [12.679780444702573]
CMDPは、一連の行動制約を順守しながら、ゴールベースのタスクを解決するように適応することができる。
ビデオゲームにおけるNPC設計のための強化学習の適用に関連する一連の連続制御タスクについて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2021-12-22T21:12:28Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。