論文の概要: Robust Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.06866v1
- Date: Wed, 14 Sep 2022 18:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:03:30.039096
- Title: Robust Constrained Reinforcement Learning
- Title(参考訳): ロバスト制約付き強化学習
- Authors: Yue Wang, Fei Miao, Shaofeng Zou
- Abstract要約: 制約付き強化学習は、ユーティリティやコストの制約による期待される報酬を最大化することである。
モデル不確実性下での頑健な制約付き強化学習の枠組みを提案する。
目的は、不確実性セットにおけるすべてのMDPに対して、ユーティリティ/コストの制約が満たされることを保証し、不確実性セットに対する最悪の報酬パフォーマンスを最大化することである。
- 参考スコア(独自算出の注目度): 21.316736188238806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constrained reinforcement learning is to maximize the expected reward subject
to constraints on utilities/costs. However, the training environment may not be
the same as the test one, due to, e.g., modeling error, adversarial attack,
non-stationarity, resulting in severe performance degradation and more
importantly constraint violation. We propose a framework of robust constrained
reinforcement learning under model uncertainty, where the MDP is not fixed but
lies in some uncertainty set, the goal is to guarantee that constraints on
utilities/costs are satisfied for all MDPs in the uncertainty set, and to
maximize the worst-case reward performance over the uncertainty set. We design
a robust primal-dual approach, and further theoretically develop guarantee on
its convergence, complexity and robust feasibility. We then investigate a
concrete example of $\delta$-contamination uncertainty set, design an online
and model-free algorithm and theoretically characterize its sample complexity.
- Abstract(参考訳): 制約付き強化学習は、ユーティリティやコストの制約による期待される報酬を最大化することである。
しかし、トレーニング環境は、例えば、モデリングエラー、敵対的攻撃、非定常性などにより、パフォーマンスが著しく低下し、より重大な制約違反が生じるため、テスト環境と同一ではない可能性がある。
我々は,モデル不確実性下での頑健な制約付き強化学習の枠組みを提案する。そこではmdpが固定されていないが不確実性セットにあるため,不確実性セット内のすべてのmdpに対してユーティリティ/コストの制約が満たされることを保証すること,不確実性セットに対する最悪の報奨性能を最大化することを目的とする。
我々は,強固な原始双対的アプローチを設計し,その収束性,複雑性,頑健な実現可能性の保証を理論的に開発する。
次に,$\delta$-contamination 不確かさ集合の具体例を調査し,オンラインおよびモデルフリーなアルゴリズムを設計し,そのサンプル複雑性を理論的に特徴付ける。
関連論文リスト
- Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling [18.93897922183304]
本稿では,ユーザの指示に従って画像が合成される条件付き画像生成の課題に焦点をあてる。
報酬モデルからの不正確なフィードバックの悪影響を低減するために,不確実性を考慮した報酬モデルCtrl-Uを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:43:51Z) - End-to-End Conformal Calibration for Optimization Under Uncertainty [32.844953018302874]
本稿では,条件最適化のための不確実性推定を学習するためのエンドツーエンドフレームワークを開発する。
さらに,部分凸ニューラルネットワークを用いた任意の凸不確実性集合の表現を提案する。
我々のアプローチは2段階最適化によって一貫して改善される。
論文 参考訳(メタデータ) (2024-09-30T17:38:27Z) - Automatically Adaptive Conformal Risk Control [49.95190019041905]
本稿では,テストサンプルの難易度に適応して,統計的リスクの近似的条件制御を実現する手法を提案する。
我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。
論文 参考訳(メタデータ) (2024-06-25T08:29:32Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Recursive Constraints to Prevent Instability in Constrained
Reinforcement Learning [16.019477271828745]
マルコフ決定プロセスにおける決定論的政策の発見という課題を考察する。
この種の問題は難しいことが知られているが、決定論と一様最適性の要求が組み合わされば、学習不安定が生じる。
本稿では,学習不安定性を防止するための制約付き強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-20T02:33:24Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。