論文の概要: Inverse Reinforcement Learning from a Gradient-based Learner
- arxiv url: http://arxiv.org/abs/2007.07812v1
- Date: Wed, 15 Jul 2020 16:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:00:22.738559
- Title: Inverse Reinforcement Learning from a Gradient-based Learner
- Title(参考訳): 勾配学習者からの逆強化学習
- Authors: Giorgia Ramponi and Gianluca Drappo and Marcello Restelli
- Abstract要約: 逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 41.8663538249537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse Reinforcement Learning addresses the problem of inferring an expert's
reward function from demonstrations. However, in many applications, we not only
have access to the expert's near-optimal behavior, but we also observe part of
her learning process. In this paper, we propose a new algorithm for this
setting, in which the goal is to recover the reward function being optimized by
an agent, given a sequence of policies produced during learning. Our approach
is based on the assumption that the observed agent is updating her policy
parameters along the gradient direction. Then we extend our method to deal with
the more realistic scenario where we only have access to a dataset of learning
trajectories. For both settings, we provide theoretical insights into our
algorithms' performance. Finally, we evaluate the approach in a simulated
GridWorld environment and on the MuJoCo environments, comparing it with the
state-of-the-art baseline.
- Abstract(参考訳): 逆強化学習は、実演から専門家の報酬関数を推測する問題に対処する。
しかし、多くのアプリケーションでは、専門家の最適に近い行動にアクセスするだけでなく、学習プロセスの一部も観察しています。
本稿では,学習中に生成する一連のポリシーを与えられた場合,エージェントが最適化する報酬関数を回復することを目的とした,この設定のための新しいアルゴリズムを提案する。
提案手法は,対象エージェントが勾配方向に沿ってポリシーパラメータを更新しているという仮定に基づいている。
そして,学習軌跡のデータセットにのみアクセス可能な,より現実的なシナリオに対処する手法を拡張した。
どちらの設定でも、アルゴリズムのパフォーマンスに関する理論的洞察を提供する。
最後に、シミュレーションされたグリッドワールド環境とmujoco環境におけるアプローチを評価し、最先端のベースラインと比較する。
関連論文リスト
- Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Weighted Maximum Entropy Inverse Reinforcement Learning [22.269565708490468]
逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-20T06:02:07Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Deep Inverse Q-learning with Constraints [15.582910645906145]
我々は、専門家のポリシーを回復するために、実証行動の根底にあるMDPを解くことしか必要としない新しいアルゴリズムのクラスを導入する。
本稿では,このアルゴリズムを関数近似を用いて連続状態空間に拡張する方法と,対応するアクション値関数を推定する方法を示す。
我々は、Objectworldベンチマーク上で、逆アクション値反復、逆Q-ラーニング、ディープ逆Q-ラーニングと呼ばれる結果のアルゴリズムを評価した。
論文 参考訳(メタデータ) (2020-08-04T17:21:51Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。