論文の概要: OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via
Distribution Matching
- arxiv url: http://arxiv.org/abs/2109.04307v1
- Date: Thu, 9 Sep 2021 14:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 20:39:18.653974
- Title: OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via
Distribution Matching
- Title(参考訳): opirl: 分散マッチングによる効率的なオフポリシー逆強化学習
- Authors: Hana Hoshino, Kei Ota, Asako Kanezaki, Rio Yokota
- Abstract要約: 逆強化学習(IRL)は、報酬工学が面倒なシナリオでは魅力的です。
以前のIRLアルゴリズムは、安定かつ最適なパフォーマンスのために現在のポリシーから集中的にサンプリングする必要があるオン・ポリティ転移を使用する。
我々は、オフ・ポリティ・逆強化学習(OPIRL)を紹介し、オフ・ポリティィ・データ配信をオン・ポリティィではなく、オフ・ポリティィ・データ配信を採用する。
- 参考スコア(独自算出の注目度): 12.335788185691916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse Reinforcement Learning (IRL) is attractive in scenarios where reward
engineering can be tedious. However, prior IRL algorithms use on-policy
transitions, which require intensive sampling from the current policy for
stable and optimal performance. This limits IRL applications in the real world,
where environment interactions can become highly expensive. To tackle this
problem, we present Off-Policy Inverse Reinforcement Learning (OPIRL), which
(1) adopts off-policy data distribution instead of on-policy and enables
significant reduction of the number of interactions with the environment, (2)
learns a stationary reward function that is transferable with high
generalization capabilities on changing dynamics, and (3) leverages
mode-covering behavior for faster convergence. We demonstrate that our method
is considerably more sample efficient and generalizes to novel environments
through the experiments. Our method achieves better or comparable results on
policy performance baselines with significantly fewer interactions.
Furthermore, we empirically show that the recovered reward function generalizes
to different tasks where prior arts are prone to fail.
- Abstract(参考訳): 逆強化学習(IRL)は、報酬工学が面倒なシナリオでは魅力的です。
しかし、以前のirlアルゴリズムは、安定した最適性能のために現在のポリシーから集中的なサンプリングを必要とするオンポリシー遷移を使用する。
これにより、環境相互作用が高価になる現実世界でのIRL応用が制限される。
そこで本研究では,(1)オンポリシーではなくオフポリシーデータ分布を採用し,環境とのインタラクション数を大幅に削減するオフポリシー逆強化学習(opirl)を提案し,(2)ダイナミックスの変化において高い一般化能力を持つ定常報酬関数を学習し,(3)モード被覆行動を利用してより高速な収束を実現する。
本手法は,より効率的にサンプルを採取し,実験により新しい環境に一般化できることを実証する。
本手法は,より少ない相互作用で,ポリシー性能ベースラインにおいて,よりよい結果または比較結果を得る。
さらに,回収した報酬関数が,先行技術が失敗し易いタスクに一般化することを示す。
関連論文リスト
- Rethinking Adversarial Inverse Reinforcement Learning: From the Angles of Policy Imitation and Transferable Reward Recovery [1.1394969272703013]
逆逆強化学習(AIRL)は、包括的で伝達可能なタスク記述を提供するための基礎的なアプローチとして機能する。
本稿では,AIRLの再検討を行う。
その結果,AIRLは特定の条件に関わらず,高い確率で効果的な転送を行うために報酬をアンタングルすることができることがわかった。
論文 参考訳(メタデータ) (2024-10-10T06:21:32Z) - EvIL: Evolution Strategies for Generalisable Imitation Learning [33.745657379141676]
模倣学習(IL)の専門家によるデモンストレーションと、学習したポリシをデプロイしたい環境は、まったく同じではありません。
クローンのようなポリシー中心のアプローチと比較すると、逆強化学習(IRL)のような報酬中心のアプローチは、しばしば新しい環境における専門家の振る舞いをよりよく再現する。
最新のディープILアルゴリズムは、専門家よりもはるかに弱いポリシーを導出する報酬を頻繁に回収する。
本研究では,目標環境における再学習を高速化する報酬形成項を最適化する進化戦略に基づく新しい手法であるEvILを提案する。
論文 参考訳(メタデータ) (2024-06-15T22:46:39Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Active Exploration for Inverse Reinforcement Learning [58.295273181096036]
Inverse Reinforcement Learning (AceIRL) のための新しいIRLアルゴリズムを提案する。
AceIRLは、専門家の報酬関数を素早く学習し、良い政策を特定するために、未知の環境と専門家のポリシーを積極的に探求する。
我々はシミュレーションにおいてAceIRLを実証的に評価し、より単純な探索戦略よりも著しく優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-18T14:45:55Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。