論文の概要: Balancing Constraints and Rewards with Meta-Gradient D4PG
- arxiv url: http://arxiv.org/abs/2010.06324v2
- Date: Fri, 27 Nov 2020 17:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 22:26:11.205126
- Title: Balancing Constraints and Rewards with Meta-Gradient D4PG
- Title(参考訳): メタグラディエントD4PGによるバランシング制約とリワード
- Authors: Dan A. Calian and Daniel J. Mankowitz and Tom Zahavy and Zhongwen Xu
and Junhyuk Oh and Nir Levine and Timothy Mann
- Abstract要約: 本稿では,メタグラディエントを利用したソフト制約付きRL手法を提案する。
このアプローチの有効性は、4つの異なる MuJoCo ドメインのベースラインを一貫して上回ることを示すことで実証する。
- 参考スコア(独自算出の注目度): 32.346987076183204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Reinforcement Learning (RL) agents to solve real-world applications
often requires satisfying complex system constraints. Often the constraint
thresholds are incorrectly set due to the complex nature of a system or the
inability to verify the thresholds offline (e.g, no simulator or reasonable
offline evaluation procedure exists). This results in solutions where a task
cannot be solved without violating the constraints. However, in many real-world
cases, constraint violations are undesirable yet they are not catastrophic,
motivating the need for soft-constrained RL approaches. We present a
soft-constrained RL approach that utilizes meta-gradients to find a good
trade-off between expected return and minimizing constraint violations. We
demonstrate the effectiveness of this approach by showing that it consistently
outperforms the baselines across four different MuJoCo domains.
- Abstract(参考訳): 現実世界のアプリケーションを解決するためにRLエージェントを配置するには、複雑なシステムの制約を満たす必要があることが多い。
しばしば制約しきい値は、システムの複雑な性質や、オフラインでしきい値を検証することができない(例えば、シミュレータや合理的なオフライン評価手順は存在しない)ために誤って設定される。
これにより、制約に違反することなくタスクを解決できない解が得られる。
しかし、現実の多くのケースでは制約違反は望ましくないが、それらは破滅的なものではなく、ソフト制約されたRLアプローチの必要性を動機付けている。
本稿では,制約違反の最小化と期待リターンとの良好なトレードオフを見つけるために,メタグラディエンスを利用するソフトコンストレートrl手法を提案する。
このアプローチの有効性は、4つの異なる MuJoCo ドメインのベースラインを一貫して上回ることを示すことで実証する。
関連論文リスト
- CaT: Constraints as Terminations for Legged Locomotion Reinforcement Learning [23.76366118253271]
現在の解決者は、厳しい制約を尊重する効率的なポリシーを作成できない。
本稿では,制約付きRLアルゴリズムCaTとしてConstraintsを提案する。
ビデオとコードはhttps://constraints-as-termminations.ioで公開されている。
論文 参考訳(メタデータ) (2024-03-27T17:03:31Z) - Constrained Reinforcement Learning with Smoothed Log Barrier Function [27.216122901635018]
CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function) と呼ばれる新しい制約付きRL法を提案する。
線形スムーズなログバリア関数を追加の安全評論家に適用することにより、事前トレーニングなしで競争性能を達成する。
CSAC-LBでは,様々な難易度を有する制約付き制御タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T16:02:52Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning [20.280636126917614]
目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理される。
本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。
CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
論文 参考訳(メタデータ) (2023-02-21T12:57:12Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning [15.841609263723575]
安全オフライン強化学習(RL)の問題点について検討する。
目標は、オフラインデータのみに与えられる安全制約を満たしつつ、環境とのさらなる相互作用を伴わずに、長期的な報酬を最大化する政策を学習することである。
安全なRLとオフラインのRLの手法を組み合わせれば、準最適解しか学習できないことを示す。
論文 参考訳(メタデータ) (2021-07-19T16:30:14Z) - Constraint-Guided Reinforcement Learning: Augmenting the
Agent-Environment-Interaction [10.203602318836445]
強化学習(RL)エージェントは、限られたフィードバックから大きな観察とアクションスペースでタスクを解決することに成功しています。
本稿では,制約に基づく拡張モデルと深部RLの統合による信頼性エージェントのエンジニアリングについて論じる。
その結果、制約ガイダンスは信頼性の向上と安全な行動を提供するだけでなく、トレーニングを加速する。
論文 参考訳(メタデータ) (2021-04-24T10:04:14Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。