論文の概要: Deep Constrained Q-learning
- arxiv url: http://arxiv.org/abs/2003.09398v2
- Date: Mon, 14 Sep 2020 15:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 22:18:45.509811
- Title: Deep Constrained Q-learning
- Title(参考訳): 深い制約付きQ-ラーニング
- Authors: Gabriel Kalweit and Maria Huegle and Moritz Werling and Joschka
Boedecker
- Abstract要約: 多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
- 参考スコア(独自算出の注目度): 15.582910645906145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real world applications, reinforcement learning agents have to
optimize multiple objectives while following certain rules or satisfying a list
of constraints. Classical methods based on reward shaping, i.e. a weighted
combination of different objectives in the reward signal, or Lagrangian
methods, including constraints in the loss function, have no guarantees that
the agent satisfies the constraints at all points in time and can lead to
undesired behavior. When a discrete policy is extracted from an action-value
function, safe actions can be ensured by restricting the action space at
maximization, but can lead to sub-optimal solutions among feasible
alternatives. In this work, we propose Constrained Q-learning, a novel
off-policy reinforcement learning framework restricting the action space
directly in the Q-update to learn the optimal Q-function for the induced
constrained MDP and the corresponding safe policy. In addition to single-step
constraints referring only to the next action, we introduce a formulation for
approximate multi-step constraints under the current target policy based on
truncated value-functions. We analyze the advantages of Constrained Q-learning
in the tabular case and compare Constrained DQN to reward shaping and
Lagrangian methods in the application of high-level decision making in
autonomous driving, considering constraints for safety, keeping right and
comfort. We train our agent in the open-source simulator SUMO and on the real
HighD data set.
- Abstract(参考訳): 多くの実世界のアプリケーションでは、強化学習エージェントは特定のルールに従いながら複数の目的を最適化するか、制約のリストを満たす必要がある。
報酬のシェーピングに基づく古典的な手法、すなわち報酬信号における異なる目的の重み付けの組み合わせ、または損失関数の制約を含むラグランジアン法は、エージェントがすべての時点における制約を満たす保証がなく、望ましくない行動につながる可能性がある。
離散ポリシーがアクション値関数から抽出されると、最大化時にアクション空間を制限することで安全なアクションが保証されるが、実現可能な選択肢間での最適化ソリューションにつながる可能性がある。
本研究では,制約付きMDPの最適Q-関数とそれに対応する安全ポリシーを学習するために,Q-updateのアクション空間を直接制限する新しい非政治強化学習フレームワークであるConstrained Q-learningを提案する。
本稿では,次の動作のみを参照する単段制約に加えて,停止値関数に基づく現在の目標方針の下での近似多段制約の定式化を提案する。
本研究は,自律運転における高次意思決定の適用において,制約付きQ-ラーニングの利点を分析し,制約付きDQNを報酬形成法とラグランジアン法と比較する。
我々はオープンソースのシミュレータSUMOと実際のHighDデータセットでエージェントを訓練する。
関連論文リスト
- Scale-Invariant Gradient Aggregation for Constrained Multi-Objective
Reinforcement Learning [14.469211624761238]
制約付き多目的グラディエントアグリゲータ(CoMOGA)という制約付きMORLアルゴリズムを提案する。
複数の目的と制約を同時に扱うことの難しさを認識し、CoMOGAは元のCMORL問題を制約付き最適化問題に緩和する。
提案手法は,事前定義された制約を満たすことなく,局所的なパレート最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-03-01T04:57:13Z) - Multi-Constraint Safe RL with Objective Suppression for Safety-Critical
Applications [80.99495309420959]
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
我々は、自律運転領域を含む2つのマルチ制約安全領域において、客観抑制をベンチマークする。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Constraint-Conditioned Policy Optimization for Versatile Safe
Reinforcement Learning [35.69308654700846]
本稿では,2つのモジュールからなる条件付き制約付き政策最適化(CCPO)フレームワークを紹介する。
実験の結果,CCPOは安全性とタスク性能の点で基準線を上回っていることがわかった。
これにより、我々のアプローチは実世界の動的アプリケーションに適している。
論文 参考訳(メタデータ) (2023-10-05T17:39:02Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Direct Behavior Specification via Constrained Reinforcement Learning [12.679780444702573]
CMDPは、一連の行動制約を順守しながら、ゴールベースのタスクを解決するように適応することができる。
ビデオゲームにおけるNPC設計のための強化学習の適用に関連する一連の連続制御タスクについて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2021-12-22T21:12:28Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。