論文の概要: Offline Inverse RL: New Solution Concepts and Provably Efficient
Algorithms
- arxiv url: http://arxiv.org/abs/2402.15392v1
- Date: Fri, 23 Feb 2024 15:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:13:42.450807
- Title: Offline Inverse RL: New Solution Concepts and Provably Efficient
Algorithms
- Title(参考訳): オフライン逆rl:新しいソリューション概念と有効なアルゴリズム
- Authors: Filippo Lazzati, Mirco Mutti, Alberto Maria Metelli
- Abstract要約: 逆強化学習(IRL)は、行動の実証から専門家の報酬機能を回復することを目的としている。
本稿では、オフライン設定の機会と限界を捉えた、実現可能な報酬セットという新しい概念を紹介する。
- 参考スコア(独自算出の注目度): 26.539011770169225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse reinforcement learning (IRL) aims to recover the reward function of
an expert agent from demonstrations of behavior. It is well known that the IRL
problem is fundamentally ill-posed, i.e., many reward functions can explain the
demonstrations. For this reason, IRL has been recently reframed in terms of
estimating the feasible reward set, thus, postponing the selection of a single
reward. However, so far, the available formulations and algorithmic solutions
have been proposed and analyzed mainly for the online setting, where the
learner can interact with the environment and query the expert at will. This is
clearly unrealistic in most practical applications, where the availability of
an offline dataset is a much more common scenario. In this paper, we introduce
a novel notion of feasible reward set capturing the opportunities and
limitations of the offline setting and we analyze the complexity of its
estimation. This requires the introduction an original learning framework that
copes with the intrinsic difficulty of the setting, for which the data coverage
is not under control. Then, we propose two computationally and statistically
efficient algorithms, IRLO and PIRLO, for addressing the problem. In
particular, the latter adopts a specific form of pessimism to enforce the novel
desirable property of inclusion monotonicity of the delivered feasible set.
With this work, we aim to provide a panorama of the challenges of the offline
IRL problem and how they can be fruitfully addressed.
- Abstract(参考訳): 逆強化学習(IRL)は、行動の実証から専門家の報酬機能を回復することを目的としている。
IRL問題は基本的に不備であり、多くの報酬関数が実演を説明することができることが知られている。
このため、IRLは最近、実現可能な報酬セットを見積もることによって再編成され、単一の報酬の選択を延期した。
しかし,これまでに利用可能な定式化やアルゴリズムによる解法は,学習者が環境と対話し,専門家に自由に問い合わせることのできるオンライン設定を中心に提案され,分析されている。
これは、オフラインデータセットの可用性がより一般的なシナリオである、ほとんどの実用的なアプリケーションでは明らかに非現実的です。
本稿では,オフライン設定の機会と限界を捉えた,実現可能な報酬セットの新たな概念を提案し,その複雑さを分析する。
これは、データカバレッジが制御されていない設定の本質的な困難に対処する独自の学習フレームワークを導入する必要がある。
そこで我々は,その問題に対処する2つの計算的,統計的に効率的なアルゴリズムIRLOとPIRLOを提案する。
特に、後者は特定の形態の悲観主義を採用し、納品可能な集合の包含単調性という新しい望ましい性質を強制する。
この作業では,オフラインirlの課題とその対処方法に関するパノラマを提供することを目的としています。
関連論文リスト
- Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Adversarial Imitation Learning On Aggregated Data [0.0]
逆強化学習(IRL: Inverse Reinforcement Learning)は、いくつかの専門家による実証から最適なポリシーを学習し、適切な報酬関数を指定するという面倒なプロセスを避ける。
本稿では,AILAD(Adversarial Imitation Learning on Aggregated Data)と呼ばれる動的適応手法を用いて,これらの要件を除去する手法を提案する。
非線型報酬関数とそれに付随する最適ポリシーの両方を、敵対的枠組みを用いて共役的に学習する。
論文 参考訳(メタデータ) (2023-11-14T22:13:38Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Task-Guided IRL in POMDPs that Scales [22.594913269327353]
逆線形強化学習(IRL)では、学習エージェントは、専門家のデモンストレーションを用いて、基礎となるタスクをコードする報酬関数を推論する。
ほとんどのIRL技術は、POMDPの計算前方問題(報酬関数を与えられた最適ポリシーを計算)を必要とする。
我々は,データ効率を向上しながら,情報量を削減するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-30T21:08:57Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Offline Inverse Reinforcement Learning [24.316047317028147]
オフラインRLは、固定された探索的なデータセットが利用可能になったときに最適なポリシーを学ぶことである。
オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築した。
論文 参考訳(メタデータ) (2021-06-09T13:44:06Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。