論文の概要: Density Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.12764v1
- Date: Thu, 24 Jun 2021 04:22:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 14:48:22.624707
- Title: Density Constrained Reinforcement Learning
- Title(参考訳): 密度制約強化学習
- Authors: Zengyi Qin, Yuxiao Chen, Chuchu Fan
- Abstract要約: 状態密度関数に制約を直接設定することで,新しい視点から制約付き強化学習を研究する。
我々は密度関数とQ関数の双対性を利用して、密度制約されたRL問題を最適に解く効果的なアルゴリズムを開発する。
提案アルゴリズムは, ポリシー更新が不完全である場合でも, 境界誤差のある準最適解に収束することを示す。
- 参考スコア(独自算出の注目度): 9.23225507471139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study constrained reinforcement learning (CRL) from a novel perspective by
setting constraints directly on state density functions, rather than the value
functions considered by previous works. State density has a clear physical and
mathematical interpretation, and is able to express a wide variety of
constraints such as resource limits and safety requirements. Density
constraints can also avoid the time-consuming process of designing and tuning
cost functions required by value function-based constraints to encode system
specifications. We leverage the duality between density functions and Q
functions to develop an effective algorithm to solve the density constrained RL
problem optimally and the constrains are guaranteed to be satisfied. We prove
that the proposed algorithm converges to a near-optimal solution with a bounded
error even when the policy update is imperfect. We use a set of comprehensive
experiments to demonstrate the advantages of our approach over state-of-the-art
CRL methods, with a wide range of density constrained tasks as well as standard
CRL benchmarks such as Safety-Gym.
- Abstract(参考訳): 本研究では,従来検討されていた値関数ではなく,状態密度関数に直接制約を設定することによって,制約付き強化学習(CRL)を新しい視点から研究する。
状態密度は、明確な物理的および数学的解釈を持ち、リソース制限や安全要件といった幅広い制約を表現できる。
密度制約はまた、システム仕様をエンコードする値関数ベースの制約によって要求されるコスト関数の設計とチューニングの時間を要するプロセスを避けることができる。
密度関数とq関数の双対性を利用して、密度制約付きrl問題を最適に解く効果的なアルゴリズムを開発し、制約を満たすことを保証した。
提案アルゴリズムは, ポリシー更新が不完全である場合でも, 境界誤差のある準最適解に収束することを示す。
我々は,最先端のcrl法に対するアプローチの利点を実証するために,一連の包括的な実験を行い,安全性・ジャイムなどの標準crlベンチマークと同様に,幅広い密度制約タスクを行った。
関連論文リスト
- OTClean: Data Cleaning for Conditional Independence Violations using
Optimal Transport [51.6416022358349]
sysは、条件付き独立性(CI)制約下でのデータ修復に最適な輸送理論を利用するフレームワークである。
我々はSinkhornの行列スケーリングアルゴリズムにインスパイアされた反復アルゴリズムを開発し、高次元および大規模データを効率的に処理する。
論文 参考訳(メタデータ) (2024-03-04T18:23:55Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Reachability Constrained Reinforcement Learning [6.5158195776494]
本稿では、到達可能性解析を用いて最大の実現可能性集合を特徴付けるリーチビリティCRL(RCRL)法を提案する。
また、マルチ時間スケール近似理論を用いて、提案アルゴリズムが局所最適化に収束することを証明する。
安全な制御ジャムやセーフティガイムなどの異なるベンチマークにおける実験結果は、学習可能なセット、最適基準における性能、RCRLの制約満足度などを検証する。
論文 参考訳(メタデータ) (2022-05-16T09:32:45Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。