論文の概要: How to Scale Inverse RL to Large State Spaces? A Provably Efficient Approach
- arxiv url: http://arxiv.org/abs/2406.03812v1
- Date: Thu, 6 Jun 2024 07:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 15:59:34.063002
- Title: How to Scale Inverse RL to Large State Spaces? A Provably Efficient Approach
- Title(参考訳): 逆RLを大規模状態空間にスケールする方法 : 潜在的に効率的なアプローチ
- Authors: Filippo Lazzati, Mirco Mutti, Alberto Maria Metelli,
- Abstract要約: Inverse Reinforcement Learning (IRL)は、報酬関数の推定を改善するためにサンプルを使用する。
文献で利用可能なアルゴリズムはいずれも大きな状態空間の問題にスケールできないことを示す。
本稿では, 実現可能な集合の概念を一般化する, 報酬相反の新たな枠組みを紹介する。
- 参考スコア(独自算出の注目度): 23.61332577985059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In online Inverse Reinforcement Learning (IRL), the learner can collect samples about the dynamics of the environment to improve its estimate of the reward function. Since IRL suffers from identifiability issues, many theoretical works on online IRL focus on estimating the entire set of rewards that explain the demonstrations, named the feasible reward set. However, none of the algorithms available in the literature can scale to problems with large state spaces. In this paper, we focus on the online IRL problem in Linear Markov Decision Processes (MDPs). We show that the structure offered by Linear MDPs is not sufficient for efficiently estimating the feasible set when the state space is large. As a consequence, we introduce the novel framework of rewards compatibility, which generalizes the notion of feasible set, and we develop CATY-IRL, a sample efficient algorithm whose complexity is independent of the cardinality of the state space in Linear MDPs. When restricted to the tabular setting, we demonstrate that CATY-IRL is minimax optimal up to logarithmic factors. As a by-product, we show that Reward-Free Exploration (RFE) enjoys the same worst-case rate, improving over the state-of-the-art lower bound. Finally, we devise a unifying framework for IRL and RFE that may be of independent interest.
- Abstract(参考訳): オンライン逆強化学習(IRL)では、学習者は環境のダイナミクスに関するサンプルを収集し、報酬関数の推定を改善することができる。
IRLは識別可能性の問題に悩まされているため、オンラインIRLに関する多くの理論的研究は、実演を説明する報酬セット全体を見積もることに集中しており、実現可能な報酬セットと名付けられている。
しかし、文献で利用可能なアルゴリズムはいずれも大きな状態空間の問題にスケールできない。
本稿では,線形マルコフ決定過程(MDP)におけるオンラインIRL問題に焦点をあてる。
線形 MDP によって提供される構造は,状態空間が大きければ実現可能な集合を効率的に推定するのに十分でないことを示す。
その結果、我々は、実現可能な集合の概念を一般化する報酬相反の新たな枠組みを導入し、線形MDPにおける状態空間の濃度に依存しない複雑さを持つサンプル効率アルゴリズムであるCATY-IRLを開発した。
表の設定に制限された場合、CATY-IRLは対数係数まで極小であることを示す。
副産物として、Reward-Free Exploration(RFE)は同じ最悪のケースレートを享受し、最先端の低いバウンドよりも改善していることを示す。
最後に,IRL と RFE の統一フレームワークを考案する。
関連論文リスト
- Leveraging Offline Data in Linear Latent Bandits [16.006405951752903]
我々は、$textitevery$ exchangeable and coherent stateless decision process is a latent bandit.
本稿では,この部分空間を短いオフライン軌道から保証付きで学習する方法を提案する。
LOCAL-UCBとProBALL-UCBの2つの方法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:23:34Z) - Offline Inverse RL: New Solution Concepts and Provably Efficient Algorithms [23.61332577985059]
逆強化学習(IRL)は、行動の実証から専門家の報酬機能を回復することを目的としている。
本稿では、オフライン設定の機会と限界を捉えた、実現可能な報酬セットという新しい概念を紹介する。
論文 参考訳(メタデータ) (2024-02-23T15:49:46Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - The Benefits of Being Distributional: Small-Loss Bounds for
Reinforcement Learning [43.9624940128166]
本稿では,分散強化学習(DistRL)の利点を,低損失領域のレンズを通して説明する。
オンラインRLでは,最大推定値を用いて信頼度を推定するDistRLアルゴリズムを提案する。
オフラインRLでは、悲観的なDistRLは、オフライン設定に新しく、かつ、悪い単一政治カバレッジに対してより堅牢な小さなPACバウンダリを享受していることが示される。
論文 参考訳(メタデータ) (2023-05-25T04:19:43Z) - Sample Efficient Deep Reinforcement Learning via Local Planning [21.420851589712626]
本研究は,シミュレータを用いた試料効率深部強化学習(RL)に焦点を当てる。
本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。
本研究では,この簡単な手法により,難解な探索作業において,いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-29T23:17:26Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - On Reward-Free Reinforcement Learning with Linear Function Approximation [144.4210285338698]
Reward-free reinforcement learning (RL) は、バッチRL設定と多くの報酬関数がある設定の両方に適したフレームワークである。
本研究では,線形関数近似を用いた報酬のないRLに対して,正と負の両方の結果を与える。
論文 参考訳(メタデータ) (2020-06-19T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。