論文の概要: Active Exploration for Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.08645v4
- Date: Tue, 22 Aug 2023 14:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 21:30:58.286775
- Title: Active Exploration for Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習のためのアクティブ探索
- Authors: David Lindner and Andreas Krause and Giorgia Ramponi
- Abstract要約: Inverse Reinforcement Learning (AceIRL) のための新しいIRLアルゴリズムを提案する。
AceIRLは、専門家の報酬関数を素早く学習し、良い政策を特定するために、未知の環境と専門家のポリシーを積極的に探求する。
我々はシミュレーションにおいてAceIRLを実証的に評価し、より単純な探索戦略よりも著しく優れていることを発見した。
- 参考スコア(独自算出の注目度): 58.295273181096036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse Reinforcement Learning (IRL) is a powerful paradigm for inferring a
reward function from expert demonstrations. Many IRL algorithms require a known
transition model and sometimes even a known expert policy, or they at least
require access to a generative model. However, these assumptions are too strong
for many real-world applications, where the environment can be accessed only
through sequential interaction. We propose a novel IRL algorithm: Active
exploration for Inverse Reinforcement Learning (AceIRL), which actively
explores an unknown environment and expert policy to quickly learn the expert's
reward function and identify a good policy. AceIRL uses previous observations
to construct confidence intervals that capture plausible reward functions and
find exploration policies that focus on the most informative regions of the
environment. AceIRL is the first approach to active IRL with sample-complexity
bounds that does not require a generative model of the environment. AceIRL
matches the sample complexity of active IRL with a generative model in the
worst case. Additionally, we establish a problem-dependent bound that relates
the sample complexity of AceIRL to the suboptimality gap of a given IRL
problem. We empirically evaluate AceIRL in simulations and find that it
significantly outperforms more naive exploration strategies.
- Abstract(参考訳): 逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を推定する強力なパラダイムである。
多くのirlアルゴリズムは、既知の遷移モデルと、時には既知の専門家ポリシーを必要とするか、少なくとも生成モデルへのアクセスを必要とする。
しかし、これらの仮定は多くの実世界のアプリケーションにとって強すぎるため、環境はシーケンシャルな相互作用によってのみアクセス可能である。
本稿では,未知の環境と専門的政策を積極的に探求し,専門家の報酬関数を迅速に学習し,優れた政策を識別する,新しいIRLアルゴリズムを提案する。
AceIRLは以前の観測結果を用いて、妥当な報酬関数を捕捉する信頼区間を構築し、環境の最も情報性の高い領域に焦点を当てた探索ポリシーを見つける。
AceIRLは、環境の生成モデルを必要としないサンプル複雑な境界を持つ活性IRLへの最初のアプローチである。
AceIRLは、活性IRLのサンプルの複雑さと、最悪の場合の生成モデルとを一致させる。
さらに,aceirlのサンプル複雑性を与えられたirl問題の準最適ギャップに関連付ける問題依存境界を確立する。
我々はアセールをシミュレーションで実験的に評価し,よりナイーブな探索戦略を著しく上回っていることを見出した。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Focus on Impact: Indoor Exploration with Intrinsic Motivation [45.97756658635314]
そこで本研究では,純粋に本質的な報酬信号を用いたモデルによる探索指導を提案する。
ニューラルベース密度モデルを含み、従来のカウントベースの正規化を、以前に訪れた状態の擬似数で置き換える。
また,提案手法を取り入れたロボットが,ポイントゴールナビゲーションや実世界展開にシームレスに適応することを示す。
論文 参考訳(メタデータ) (2021-09-14T18:00:07Z) - OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via
Distribution Matching [12.335788185691916]
逆強化学習(IRL)は、報酬工学が面倒なシナリオでは魅力的です。
以前のIRLアルゴリズムは、安定かつ最適なパフォーマンスのために現在のポリシーから集中的にサンプリングする必要があるオン・ポリティ転移を使用する。
我々は、オフ・ポリティ・逆強化学習(OPIRL)を紹介し、オフ・ポリティィ・データ配信をオン・ポリティィではなく、オフ・ポリティィ・データ配信を採用する。
論文 参考訳(メタデータ) (2021-09-09T14:32:26Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Exploration by Maximizing R\'enyi Entropy for Reward-Free RL Framework [28.430845498323745]
我々は、搾取から探索を分離する報酬のない強化学習フレームワークを検討する。
探索段階において、エージェントは、報酬のない環境と相互作用して探索ポリシーを学習する。
計画段階では、エージェントはデータセットに基づいて報酬関数の適切なポリシーを算出する。
論文 参考訳(メタデータ) (2020-06-11T05:05:31Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。