論文の概要: Safe Value Functions
- arxiv url: http://arxiv.org/abs/2105.12204v1
- Date: Tue, 25 May 2021 20:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 07:30:23.665227
- Title: Safe Value Functions
- Title(参考訳): 安全な値関数
- Authors: Pierre-Fran\c{c}ois Massiani, Steve Heim, Friedrich Solowjow,
Sebastian Trimpe
- Abstract要約: 我々は、常に安全な値関数を誘導する有限のペナルティが存在することを示す。
最低限のペナルティを計算することはできないことが多いが、ペナルティ、報酬、割引係数、ダイナミクスの明確な構造を明らかにする。
- 参考スコア(独自算出の注目度): 5.600125581930449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relationship between safety and optimality in control is not well
understood, and they are often seen as important yet conflicting objectives.
There is a pressing need to formalize this relationship, especially given the
growing prominence of learning-based methods. Indeed, it is common practice in
reinforcement learning to simply modify reward functions by penalizing
failures, with the penalty treated as a mere heuristic. We rigorously examine
this relationship, and formalize the requirements for safe value functions:
value functions that are both optimal for a given task, and enforce safety. We
reveal the structure of this relationship through a proof of strong duality,
showing that there always exists a finite penalty that induces a safe value
function. This penalty is not unique, but upper-unbounded: larger penalties do
not harm optimality. Although it is often not possible to compute the minimum
required penalty, we reveal clear structure of how the penalty, rewards,
discount factor, and dynamics interact. This insight suggests practical,
theory-guided heuristics to design reward functions for control problems where
safety is important.
- Abstract(参考訳): 制御における安全性と最適性の関係はよく理解されておらず、しばしば重要なが矛盾する目標と見なされる。
この関係を形式化する必要性は、特に学習ベースの方法の隆盛を考えると、差し迫っている。
実際、強化学習では、単純に報酬関数を罰則化することで修正することが一般的であり、罰は単なるヒューリスティックとして扱われる。
我々は、この関係を厳格に検証し、安全な値関数:与えられたタスクに最適な値関数の要件を定式化し、安全性を強制する。
強い双対性の証明を通してこの関係の構造を明らかにし、安全値関数を誘導する有限ペナルティが常に存在することを示す。
このペナルティは一意ではないが、上限は高く、より大きなペナルティは最適性に害を及ぼさない。
必要最小限のペナルティを計算することはしばしば不可能であるが、ペナルティ、報酬、ディスカウントファクター、ダイナミクスの相互作用の明確な構造を明らかにする。
この知見は、安全が重要である制御問題に対して報奨関数を設計するための実践的で理論的なヒューリスティックを示唆する。
関連論文リスト
- Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - On the continuity and smoothness of the value function in reinforcement learning and optimal control [1.534667887016089]
基底系上の比較的弱い仮定の下では、値関数は常に H より古い連続であることが示される。
また, 微分不可能な値関数は, わずかに「乱れ」することで, 微分可能となることを示す。
論文 参考訳(メタデータ) (2024-03-21T14:39:28Z) - Robust Safe Reinforcement Learning under Adversarial Disturbances [12.145611442959602]
現実世界の制御タスクに強化学習を適用する場合、安全が主な関心事である。
既存の安全な強化学習アルゴリズムは、外部の障害をほとんど考慮しない。
本稿では,最悪のケース障害に対処する堅牢な安全強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T05:34:46Z) - ROSARL: Reward-Only Safe Reinforcement Learning [11.998722332188]
強化学習における重要な問題は、環境の中でタスクを安全に解決することを学ぶエージェントを設計することである。
一般的な解決策は、人間の専門家が報酬関数のペナルティを定義するか、安全でない状態に達する際に最小化されるコストを定義することである。
これは簡単ではない、なぜなら、ペナルティが小さすぎると、安全でない状態に達するエージェントにつながるかもしれないし、ペナルティが大きすぎると収束する時間が増加するからである。
論文 参考訳(メタデータ) (2023-05-31T08:33:23Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Interpreting Primal-Dual Algorithms for Constrained Multiagent
Reinforcement Learning [4.67306371596399]
ほとんどのC-MARLアルゴリズムは、報酬に付加されるペナルティ関数を通じて制約を強制するために、プリマル・デュアルアプローチを使用する。
制約関数をペナルティとして使用する標準的な慣行が安全性の弱い概念に繋がることを示す。
本稿では,制約付きマルチエージェント・アドバンスト・アクター・アトラクション (C-MAA2C) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-29T10:23:26Z) - Benefits of Monotonicity in Safe Exploration with Gaussian Processes [50.71125084216603]
動作の集合上で未知の関数を逐次最大化する問題を考察する。
M-SafeUCBは、安全性、適切に定義された後悔の念、安全境界全体の発見という理論的な保証を享受していることを示す。
論文 参考訳(メタデータ) (2022-11-03T02:52:30Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Learning to Be Cautious [71.9871661858886]
強化学習の分野における重要な課題は、新しい状況下で慎重に行動するエージェントを開発することである。
注意深い行動がますます不要になるタスクのシーケンスと、システムが注意深いことを実証するアルゴリズムを提示する。
論文 参考訳(メタデータ) (2021-10-29T16:52:45Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。