論文の概要: Robust Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.06866v1
- Date: Wed, 14 Sep 2022 18:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:03:30.039096
- Title: Robust Constrained Reinforcement Learning
- Title(参考訳): ロバスト制約付き強化学習
- Authors: Yue Wang, Fei Miao, Shaofeng Zou
- Abstract要約: 制約付き強化学習は、ユーティリティやコストの制約による期待される報酬を最大化することである。
モデル不確実性下での頑健な制約付き強化学習の枠組みを提案する。
目的は、不確実性セットにおけるすべてのMDPに対して、ユーティリティ/コストの制約が満たされることを保証し、不確実性セットに対する最悪の報酬パフォーマンスを最大化することである。
- 参考スコア(独自算出の注目度): 21.316736188238806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constrained reinforcement learning is to maximize the expected reward subject
to constraints on utilities/costs. However, the training environment may not be
the same as the test one, due to, e.g., modeling error, adversarial attack,
non-stationarity, resulting in severe performance degradation and more
importantly constraint violation. We propose a framework of robust constrained
reinforcement learning under model uncertainty, where the MDP is not fixed but
lies in some uncertainty set, the goal is to guarantee that constraints on
utilities/costs are satisfied for all MDPs in the uncertainty set, and to
maximize the worst-case reward performance over the uncertainty set. We design
a robust primal-dual approach, and further theoretically develop guarantee on
its convergence, complexity and robust feasibility. We then investigate a
concrete example of $\delta$-contamination uncertainty set, design an online
and model-free algorithm and theoretically characterize its sample complexity.
- Abstract(参考訳): 制約付き強化学習は、ユーティリティやコストの制約による期待される報酬を最大化することである。
しかし、トレーニング環境は、例えば、モデリングエラー、敵対的攻撃、非定常性などにより、パフォーマンスが著しく低下し、より重大な制約違反が生じるため、テスト環境と同一ではない可能性がある。
我々は,モデル不確実性下での頑健な制約付き強化学習の枠組みを提案する。そこではmdpが固定されていないが不確実性セットにあるため,不確実性セット内のすべてのmdpに対してユーティリティ/コストの制約が満たされることを保証すること,不確実性セットに対する最悪の報奨性能を最大化することを目的とする。
我々は,強固な原始双対的アプローチを設計し,その収束性,複雑性,頑健な実現可能性の保証を理論的に開発する。
次に,$\delta$-contamination 不確かさ集合の具体例を調査し,オンラインおよびモデルフリーなアルゴリズムを設計し,そのサンプル複雑性を理論的に特徴付ける。
関連論文リスト
- Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - f-FERM: A Scalable Framework for Robust Fair Empirical Risk Minimization [10.77950723840101]
本稿では、f-divergence measures(f-FERM)に基づく公正な経験的リスクに対する統一的な最適化フレームワークを提案する。
さらに,f-FERMによるほぼ全てのバッチサイズに対するフェアネス・精度トレードオフの優位性を実証した。
我々の拡張は、不確実集合として$L_p$ノルムの下で f-FERM の目的を分布的に頑健に最適化する手法に基づいている。
論文 参考訳(メタデータ) (2023-12-06T03:14:16Z) - Decomposing Uncertainty for Large Language Models through Input
Clarification Ensembling [74.00331519233026]
大規模言語モデル(LLM)のための不確実性分解フレームワークを提案する。
我々のフレームワークは入力の一連の明確化を生成し、それらを固定LLMに入力し、対応する予測をアンサンブルする。
実験により,提案手法は様々なタスクに対して正確かつ確実な不確実性定量化を提供することを示した。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Recursive Constraints to Prevent Instability in Constrained
Reinforcement Learning [16.019477271828745]
マルコフ決定プロセスにおける決定論的政策の発見という課題を考察する。
この種の問題は難しいことが知られているが、決定論と一様最適性の要求が組み合わされば、学習不安定が生じる。
本稿では,学習不安定性を防止するための制約付き強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-20T02:33:24Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。