論文の概要: Identifiability and Generalizability in Constrained Inverse
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.00629v1
- Date: Thu, 1 Jun 2023 12:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 16:12:41.040925
- Title: Identifiability and Generalizability in Constrained Inverse
Reinforcement Learning
- Title(参考訳): 制約付き逆強化学習における識別性と一般化可能性
- Authors: Andreas Schlaginhaufen, Maryam Kamgarpour
- Abstract要約: 強化学習における2つの主な課題は、適切な報酬関数を設計し、学習したポリシーの安全性を確保することである。
本稿では,マルコフ決定過程における逆強化学習(IRL)の理論的枠組みを提案する。
学習した報酬の準最適性に対する有限サンプル保証を導出し、グリッドワールド環境における結果の検証を行う。
- 参考スコア(独自算出の注目度): 12.107259467873094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two main challenges in Reinforcement Learning (RL) are designing appropriate
reward functions and ensuring the safety of the learned policy. To address
these challenges, we present a theoretical framework for Inverse Reinforcement
Learning (IRL) in constrained Markov decision processes. From a convex-analytic
perspective, we extend prior results on reward identifiability and
generalizability to both the constrained setting and a more general class of
regularizations. In particular, we show that identifiability up to potential
shaping (Cao et al., 2021) is a consequence of entropy regularization and may
generally no longer hold for other regularizations or in the presence of safety
constraints. We also show that to ensure generalizability to new transition
laws and constraints, the true reward must be identified up to a constant.
Additionally, we derive a finite sample guarantee for the suboptimality of the
learned rewards, and validate our results in a gridworld environment.
- Abstract(参考訳): 強化学習(rl)における2つの大きな課題は、適切な報酬機能の設計と学習方針の安全性の確保である。
これらの課題に対処するために,マルコフ決定過程における逆強化学習(IRL)の理論的枠組みを提案する。
凸解析の観点から、制約された設定とより一般的な正規化のクラスの両方に対して、報酬識別可能性および一般化可能性に関する事前結果を拡張する。
特に、潜在的なシェーピング(cao et al., 2021)までの識別性はエントロピー正規化の結果であり、一般に他の正規化や安全制約の存在下では保持されない。
また,新しい遷移法則や制約への一般化性を保証するためには,真の報酬を一定まで特定する必要があることを示す。
さらに、学習した報酬の最適度に対する有限サンプル保証を導出し、グリッドワールド環境における結果の検証を行う。
関連論文リスト
- A Survey of Constraint Formulations in Safe Reinforcement Learning [17.52609277902876]
安全な強化学習は 実験データからエージェントのポリシーを 安全に最適化する強力なパラダイムです
一般的な安全なRLアプローチは、制約付き基準に基づいており、安全制約の下で期待される累積報酬を最大化する問題を解決する。
本稿では,各定式化に特化して設計されたアルゴリズムのキュレートされた選択とともに,代表的制約定式化の包括的レビューを行う。
我々は,安全強化学習研究の現状と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-02-03T04:40:31Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Safe Reinforcement Learning From Pixels Using a Stochastic Latent
Representation [3.5884936187733394]
我々は,画素観測による安全強化学習の課題に対処する。
制約付き、部分的に観測可能なマルコフ決定プロセスフレームワークで問題を定式化する。
我々は、潜伏アクター批判(SLAC)アプローチを用いて、新しい安全評論家を採用する。
論文 参考訳(メタデータ) (2022-10-02T19:55:42Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Your Policy Regularizer is Secretly an Adversary [13.625408555732752]
報奨関数の最悪の摂動に対して,頑健性がヘッジングによって生じることを示す。
我々は、KLとα偏差正規化の下で、この頑健な対向報酬摂動を特徴付ける。
本稿では、最悪の報酬摂動に関する詳細な議論と、この堅牢性を示す直感的な経験例を紹介する。
論文 参考訳(メタデータ) (2022-03-23T17:54:20Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - Corruption-robust exploration in episodic reinforcement learning [76.19192549843727]
本研究は, システムにおける報酬と遷移確率の両面において, 敵対的腐敗下での多段階・多段階・多段階強化学習について検討した。
我々の枠組みは、汚職の欠如をほぼ最適に後悔する効率的なアルゴリズムをもたらす。
特に,本研究は,根本的強化学習のためのBandit-Feedbackモデルにおいて,純粋にI.d.遷移からの逸脱を保証した最初のサブ線形後悔の保証を提供する。
論文 参考訳(メタデータ) (2019-11-20T03:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。