論文の概要: A Dual Perspective of Reinforcement Learning for Imposing Policy Constraints
- arxiv url: http://arxiv.org/abs/2404.16468v1
- Date: Thu, 25 Apr 2024 09:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:09:25.175016
- Title: A Dual Perspective of Reinforcement Learning for Imposing Policy Constraints
- Title(参考訳): 政策制約を課すための強化学習の2つの視点
- Authors: Bram De Cooman, Johan Suykens,
- Abstract要約: 我々は、価値ベースおよびアクター批判的強化学習法において、汎用的な原始双対フレームワークを使用する。
得られた二重定式化は、学習されたポリシーにさらなる制約を与えるのに特に有用であることが判明した。
トレーニングを通じて自動的に処理されるポリシー制約の様々な組み合わせをサポートする実用的なアルゴリズムが導出される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-free reinforcement learning methods lack an inherent mechanism to impose behavioural constraints on the trained policies. While certain extensions exist, they remain limited to specific types of constraints, such as value constraints with additional reward signals or visitation density constraints. In this work we try to unify these existing techniques and bridge the gap with classical optimization and control theory, using a generic primal-dual framework for value-based and actor-critic reinforcement learning methods. The obtained dual formulations turn out to be especially useful for imposing additional constraints on the learned policy, as an intrinsic relationship between such dual constraints (or regularization terms) and reward modifications in the primal is reveiled. Furthermore, using this framework, we are able to introduce some novel types of constraints, allowing to impose bounds on the policy's action density or on costs associated with transitions between consecutive states and actions. From the adjusted primal-dual optimization problems, a practical algorithm is derived that supports various combinations of policy constraints that are automatically handled throughout training using trainable reward modifications. The resulting $\texttt{DualCRL}$ method is examined in more detail and evaluated under different (combinations of) constraints on two interpretable environments. The results highlight the efficacy of the method, which ultimately provides the designer of such systems with a versatile toolbox of possible policy constraints.
- Abstract(参考訳): モデルなし強化学習法は、訓練されたポリシーに行動制約を課す固有のメカニズムを欠いている。
特定の拡張は存在するが、付加的な報酬信号を持つ値制約や訪問密度制約のような特定の種類の制約に制限される。
本研究は,従来の手法と古典的最適化と制御理論のギャップを埋めるために,価値ベースおよびアクタ批判的強化学習のための汎用的原始双対フレームワークを用いて試みる。
得られた双対の定式化は、そのような双対の制約(あるいは正規化項)とプライマリにおける報酬の修正との本質的な関係が暴露されるため、学習されたポリシーにさらなる制約を課すのに特に有用であることが判明した。
さらに、この枠組みを用いることで、ポリシーのアクション密度や、連続状態とアクション間の遷移に伴うコストに制約を課すことができる、いくつかの新しいタイプの制約を導入することができる。
調整済み原始双対最適化問題から、トレーニング可能な報酬修正を用いたトレーニングを通して自動的に処理されるポリシー制約の様々な組み合わせをサポートする実用的なアルゴリズムが導出される。
得られた$\texttt{DualCRL}$メソッドは、より詳細に検討され、2つの解釈可能な環境における異なる(組み合わせ)制約の下で評価される。
その結果,提案手法の有効性が強調され,最終的にはポリシー制約の可能な汎用ツールボックスを設計者に提供した。
関連論文リスト
- Adversarial Constrained Policy Optimization: Improving Constrained Reinforcement Learning by Adapting Budgets [6.5472155063246085]
制約付き強化学習は、報酬と制約の両方が考慮される安全クリティカルな分野において、有望な進歩を遂げてきた。
本稿では,報酬の同時最適化とトレーニング中のコスト予算の適応を可能にする適応的制約付き政策最適化(ACPO)を提案する。
論文 参考訳(メタデータ) (2024-10-28T07:04:32Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。
提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。
また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:42:10Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - On Regularization and Inference with Label Constraints [62.60903248392479]
機械学習パイプラインにおけるラベル制約を符号化するための2つの戦略、制約付き正規化、制約付き推論を比較した。
正規化については、制約に不整合なモデルを前置することで一般化ギャップを狭めることを示す。
制約付き推論では、モデルの違反を訂正することで人口リスクを低減し、それによってその違反を有利にすることを示す。
論文 参考訳(メタデータ) (2023-07-08T03:39:22Z) - Pragmatic Fairness: Developing Policies with Outcome Disparity Control [15.618754942472822]
公正性の制約を満たす最適ポリシーを設計するための因果的枠組みを導入する。
そこで我々は,モデレーションの破れ制約と同等の利益制約という,2つの異なる公正性制約を提案する。
論文 参考訳(メタデータ) (2023-01-28T19:25:56Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。