論文の概要: Guaranteeing Control Requirements via Reward Shaping in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2311.10026v1
- Date: Thu, 16 Nov 2023 17:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 13:28:02.693423
- Title: Guaranteeing Control Requirements via Reward Shaping in Reinforcement
Learning
- Title(参考訳): 強化学習における報酬シェーピングによる制御要件の保証
- Authors: Francesco De Lellis, Marco Coraggio, Giovanni Russo, Mirco Musolesi,
Mario di Bernardo
- Abstract要約: 取得したポリシーが本質的な性能と安定性の基準を満たすことを保証することが要求されることが多い。
本稿では,最適ポリシーが所定の制御条件に整合したトラジェクトリを生成するための体系的な報酬形成手順を提案する。
提案手法はOpenAI Gymの2つの代表的な環境における総合的な数値実験により検証する。
- 参考スコア(独自算出の注目度): 3.249927726197231
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In addressing control problems such as regulation and tracking through
reinforcement learning, it is often required to guarantee that the acquired
policy meets essential performance and stability criteria such as a desired
settling time and steady-state error prior to deployment. Motivated by this
necessity, we present a set of results and a systematic reward shaping
procedure that (i) ensures the optimal policy generates trajectories that align
with specified control requirements and (ii) allows to assess whether any given
policy satisfies them. We validate our approach through comprehensive numerical
experiments conducted in two representative environments from OpenAI Gym: the
Inverted Pendulum swing-up problem and the Lunar Lander. Utilizing both tabular
and deep reinforcement learning methods, our experiments consistently affirm
the efficacy of our proposed framework, highlighting its effectiveness in
ensuring policy adherence to the prescribed control requirements.
- Abstract(参考訳): 規制や強化学習による追跡といった制御問題に対処するためには, 取得したポリシが, 所望の着地時間や定常状態のエラーなど, 重要な性能および安定性基準を満たすことを保証することが求められる。
この必要性に動機づけられ、一連の結果と体系的な報酬形成手順を提示する。
i) 最適方針が所定の規制要件に適合する軌道を生成すること。
(ii)ある政策がそれを満たすかどうかを判断することができる。
提案手法は,OpenAI Gymの2つの代表的な環境である逆振り子の振上げ問題とLunar Landerの総合的な数値実験により検証する。
本研究は, 表層学習と深層強化学習の両方を用いて, 提案手法の有効性を一貫して確認し, 所定の制御要件に対するポリシー遵守の有効性を強調する。
関連論文リスト
- Adversarial Constrained Policy Optimization: Improving Constrained Reinforcement Learning by Adapting Budgets [6.5472155063246085]
制約付き強化学習は、報酬と制約の両方が考慮される安全クリティカルな分野において、有望な進歩を遂げてきた。
本稿では,報酬の同時最適化とトレーニング中のコスト予算の適応を可能にする適応的制約付き政策最適化(ACPO)を提案する。
論文 参考訳(メタデータ) (2024-10-28T07:04:32Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - On Imitation Learning of Linear Control Policies: Enforcing Stability
and Robustness Constraints via LMI Conditions [3.296303220677533]
線形ポリシーの模倣学習を制約付き最適化問題として定式化する。
線形行列不等式 (lmi) の制約を適合ポリシーに適用することで閉ループ安定性とロバスト性が保証できることを示す。
論文 参考訳(メタデータ) (2021-03-24T02:43:03Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Accelerating Safe Reinforcement Learning with Constraint-mismatched
Policies [34.555500347840805]
本稿では,ベースライン制御ポリシと学習者が満たさなければならない制約のセットを備える場合の強化学習の問題点について考察する。
本稿では,タスクに対する期待リターンの最大化,基本方針への距離の最小化,制約満足度セットへのポリシーの投影とを交互に行う反復的ポリシ最適化アルゴリズムを提案する。
我々のアルゴリズムは、最先端のベースラインを一貫して上回り、制約違反を10倍少なくし、平均で40%高い報酬を得る。
論文 参考訳(メタデータ) (2020-06-20T20:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。