論文の概要: Offline Inverse RL: New Solution Concepts and Provably Efficient
Algorithms
- arxiv url: http://arxiv.org/abs/2402.15392v1
- Date: Fri, 23 Feb 2024 15:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:13:42.450807
- Title: Offline Inverse RL: New Solution Concepts and Provably Efficient
Algorithms
- Title(参考訳): オフライン逆rl:新しいソリューション概念と有効なアルゴリズム
- Authors: Filippo Lazzati, Mirco Mutti, Alberto Maria Metelli
- Abstract要約: 逆強化学習(IRL)は、行動の実証から専門家の報酬機能を回復することを目的としている。
本稿では、オフライン設定の機会と限界を捉えた、実現可能な報酬セットという新しい概念を紹介する。
- 参考スコア(独自算出の注目度): 26.539011770169225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse reinforcement learning (IRL) aims to recover the reward function of
an expert agent from demonstrations of behavior. It is well known that the IRL
problem is fundamentally ill-posed, i.e., many reward functions can explain the
demonstrations. For this reason, IRL has been recently reframed in terms of
estimating the feasible reward set, thus, postponing the selection of a single
reward. However, so far, the available formulations and algorithmic solutions
have been proposed and analyzed mainly for the online setting, where the
learner can interact with the environment and query the expert at will. This is
clearly unrealistic in most practical applications, where the availability of
an offline dataset is a much more common scenario. In this paper, we introduce
a novel notion of feasible reward set capturing the opportunities and
limitations of the offline setting and we analyze the complexity of its
estimation. This requires the introduction an original learning framework that
copes with the intrinsic difficulty of the setting, for which the data coverage
is not under control. Then, we propose two computationally and statistically
efficient algorithms, IRLO and PIRLO, for addressing the problem. In
particular, the latter adopts a specific form of pessimism to enforce the novel
desirable property of inclusion monotonicity of the delivered feasible set.
With this work, we aim to provide a panorama of the challenges of the offline
IRL problem and how they can be fruitfully addressed.
- Abstract(参考訳): 逆強化学習(IRL)は、行動の実証から専門家の報酬機能を回復することを目的としている。
IRL問題は基本的に不備であり、多くの報酬関数が実演を説明することができることが知られている。
このため、IRLは最近、実現可能な報酬セットを見積もることによって再編成され、単一の報酬の選択を延期した。
しかし,これまでに利用可能な定式化やアルゴリズムによる解法は,学習者が環境と対話し,専門家に自由に問い合わせることのできるオンライン設定を中心に提案され,分析されている。
これは、オフラインデータセットの可用性がより一般的なシナリオである、ほとんどの実用的なアプリケーションでは明らかに非現実的です。
本稿では,オフライン設定の機会と限界を捉えた,実現可能な報酬セットの新たな概念を提案し,その複雑さを分析する。
これは、データカバレッジが制御されていない設定の本質的な困難に対処する独自の学習フレームワークを導入する必要がある。
そこで我々は,その問題に対処する2つの計算的,統計的に効率的なアルゴリズムIRLOとPIRLOを提案する。
特に、後者は特定の形態の悲観主義を採用し、納品可能な集合の包含単調性という新しい望ましい性質を強制する。
この作業では,オフラインirlの課題とその対処方法に関するパノラマを提供することを目的としています。
関連論文リスト
- Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [45.82577700155503]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。
提案手法は,NetHack 学習環境から得られる,難易度の高い報奨課題にまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T13:52:43Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - How does Inverse RL Scale to Large State Spaces? A Provably Efficient Approach [23.61332577985059]
Inverse Reinforcement Learning (IRL)は、報酬関数の推定を改善するためにサンプルを使用する。
文献で利用可能なアルゴリズムはいずれも大きな状態空間の問題にスケールできないことを示す。
本稿では, 実現可能な集合の概念を一般化する, 報酬相反の新たな枠組みを紹介する。
論文 参考訳(メタデータ) (2024-06-06T07:37:42Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Adversarial Imitation Learning On Aggregated Data [0.0]
逆強化学習(IRL: Inverse Reinforcement Learning)は、いくつかの専門家による実証から最適なポリシーを学習し、適切な報酬関数を指定するという面倒なプロセスを避ける。
本稿では,AILAD(Adversarial Imitation Learning on Aggregated Data)と呼ばれる動的適応手法を用いて,これらの要件を除去する手法を提案する。
非線型報酬関数とそれに付随する最適ポリシーの両方を、敵対的枠組みを用いて共役的に学習する。
論文 参考訳(メタデータ) (2023-11-14T22:13:38Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Task-Guided IRL in POMDPs that Scales [22.594913269327353]
逆線形強化学習(IRL)では、学習エージェントは、専門家のデモンストレーションを用いて、基礎となるタスクをコードする報酬関数を推論する。
ほとんどのIRL技術は、POMDPの計算前方問題(報酬関数を与えられた最適ポリシーを計算)を必要とする。
我々は,データ効率を向上しながら,情報量を削減するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-30T21:08:57Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Offline Inverse Reinforcement Learning [24.316047317028147]
オフラインRLは、固定された探索的なデータセットが利用可能になったときに最適なポリシーを学ぶことである。
オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築した。
論文 参考訳(メタデータ) (2021-06-09T13:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。