論文の概要: Identifiability and Generalizability in Constrained Inverse
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.00629v1
- Date: Thu, 1 Jun 2023 12:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 16:12:41.040925
- Title: Identifiability and Generalizability in Constrained Inverse
Reinforcement Learning
- Title(参考訳): 制約付き逆強化学習における識別性と一般化可能性
- Authors: Andreas Schlaginhaufen, Maryam Kamgarpour
- Abstract要約: 強化学習における2つの主な課題は、適切な報酬関数を設計し、学習したポリシーの安全性を確保することである。
本稿では,マルコフ決定過程における逆強化学習(IRL)の理論的枠組みを提案する。
学習した報酬の準最適性に対する有限サンプル保証を導出し、グリッドワールド環境における結果の検証を行う。
- 参考スコア(独自算出の注目度): 12.107259467873094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two main challenges in Reinforcement Learning (RL) are designing appropriate
reward functions and ensuring the safety of the learned policy. To address
these challenges, we present a theoretical framework for Inverse Reinforcement
Learning (IRL) in constrained Markov decision processes. From a convex-analytic
perspective, we extend prior results on reward identifiability and
generalizability to both the constrained setting and a more general class of
regularizations. In particular, we show that identifiability up to potential
shaping (Cao et al., 2021) is a consequence of entropy regularization and may
generally no longer hold for other regularizations or in the presence of safety
constraints. We also show that to ensure generalizability to new transition
laws and constraints, the true reward must be identified up to a constant.
Additionally, we derive a finite sample guarantee for the suboptimality of the
learned rewards, and validate our results in a gridworld environment.
- Abstract(参考訳): 強化学習(rl)における2つの大きな課題は、適切な報酬機能の設計と学習方針の安全性の確保である。
これらの課題に対処するために,マルコフ決定過程における逆強化学習(IRL)の理論的枠組みを提案する。
凸解析の観点から、制約された設定とより一般的な正規化のクラスの両方に対して、報酬識別可能性および一般化可能性に関する事前結果を拡張する。
特に、潜在的なシェーピング(cao et al., 2021)までの識別性はエントロピー正規化の結果であり、一般に他の正規化や安全制約の存在下では保持されない。
また,新しい遷移法則や制約への一般化性を保証するためには,真の報酬を一定まで特定する必要があることを示す。
さらに、学習した報酬の最適度に対する有限サンプル保証を導出し、グリッドワールド環境における結果の検証を行う。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。
本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。
本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-20T01:37:21Z) - Towards Interpretable Reinforcement Learning with Constrained Normalizing Flow Policies [5.6872893893453105]
強化学習ポリシーは一般にブラックボックスニューラルネットワークによって表現される。
本稿では,フローポリシを解釈可能かつ安全な構成ポリシーモデルとして,制約付き正規化を提案する。
論文 参考訳(メタデータ) (2024-05-02T11:40:15Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - A Survey of Constraint Formulations in Safe Reinforcement Learning [15.593999581562203]
現実世界の問題に強化学習を適用する場合、安全性は重要です。
一般的な安全なRLアプローチは、期待される累積報酬を最大化する制約付き基準に基づいている。
近年のRLの安全性向上努力にもかかわらず、この分野の体系的な理解は依然として困難である。
論文 参考訳(メタデータ) (2024-02-03T04:40:31Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Safe Reinforcement Learning From Pixels Using a Stochastic Latent
Representation [3.5884936187733394]
我々は,画素観測による安全強化学習の課題に対処する。
制約付き、部分的に観測可能なマルコフ決定プロセスフレームワークで問題を定式化する。
我々は、潜伏アクター批判(SLAC)アプローチを用いて、新しい安全評論家を採用する。
論文 参考訳(メタデータ) (2022-10-02T19:55:42Z) - Your Policy Regularizer is Secretly an Adversary [13.625408555732752]
報奨関数の最悪の摂動に対して,頑健性がヘッジングによって生じることを示す。
我々は、KLとα偏差正規化の下で、この頑健な対向報酬摂動を特徴付ける。
本稿では、最悪の報酬摂動に関する詳細な議論と、この堅牢性を示す直感的な経験例を紹介する。
論文 参考訳(メタデータ) (2022-03-23T17:54:20Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。