論文の概要: Accelerating Inverse Reinforcement Learning with Expert Bootstrapping
- arxiv url: http://arxiv.org/abs/2402.02608v1
- Date: Sun, 4 Feb 2024 20:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:35:33.160286
- Title: Accelerating Inverse Reinforcement Learning with Expert Bootstrapping
- Title(参考訳): エキスパートブートストラップによる逆強化学習の高速化
- Authors: David Wu and Sanjiban Choudhury
- Abstract要約: 専門家による実験をうまく活用することで、内部のRLループでのハード探索の必要性を低減できることを示す。
具体的には、(1)内部RLアルゴリズムの再生バッファに専門家遷移を配置する(例えば、ソフトアクター批判)ことで学習者に高い報酬状態を直接通知し、(2)Q値のブートストラップにおけるエキスパートアクションを使用して目標Q値の推定を改善し、より正確に高価値のエキスパート状態を記述する。
- 参考スコア(独自算出の注目度): 13.391861125428234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing inverse reinforcement learning methods (e.g. MaxEntIRL, $f$-IRL)
search over candidate reward functions and solve a reinforcement learning
problem in the inner loop. This creates a rather strange inversion where a
harder problem, reinforcement learning, is in the inner loop of a presumably
easier problem, imitation learning. In this work, we show that better
utilization of expert demonstrations can reduce the need for hard exploration
in the inner RL loop, hence accelerating learning. Specifically, we propose two
simple recipes: (1) placing expert transitions into the replay buffer of the
inner RL algorithm (e.g. Soft-Actor Critic) which directly informs the learner
about high reward states instead of forcing the learner to discover them
through extensive exploration, and (2) using expert actions in Q value
bootstrapping in order to improve the target Q value estimates and more
accurately describe high value expert states. Our methods show significant
gains over a MaxEntIRL baseline on the benchmark MuJoCo suite of tasks,
speeding up recovery to 70\% of deterministic expert performance by 2.13x on
HalfCheetah-v2, 2.6x on Ant-v2, 18x on Hopper-v2, and 3.36x on Walker2d-v2.
- Abstract(参考訳): 既存の逆強化学習手法(例えばmaxentirl、$f$-irl)は、候補報酬関数を探索し、内側ループにおける強化学習問題を解決する。
これは、難しい問題である強化学習が、おそらくより簡単な問題である模倣学習の内輪にある、かなり奇妙な逆転を生み出します。
本研究では,専門家による実演の活用により,内部rlループのハード探索の必要性が軽減され,学習が促進されることを示す。
具体的には,(1)学習者に広範囲な探索を通じて発見を強制するのではなく,直接高報酬状態を知らせる内部rlアルゴリズムのリプレイバッファに専門家遷移を配置すること,(2)目標のq値推定を改善するためにq値ブートストラップにおけるエキスパートアクションを使用すること,およびより正確に高価値なエキスパート状態を記述すること,の2つの簡単なレシピを提案する。
提案手法は,MuJoCoのベンチマークスイート上でのMaxEntIRLベースラインよりも大幅に向上し,HalfCheetah-v2では2.13倍,Ant-v2では2.6倍,Hopper-v2では18倍,Walker2d-v2では3.36倍に回復した。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - The Virtues of Pessimism in Inverse Reinforcement Learning [38.98656220917943]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから複雑な振る舞いを学ぶための強力なフレームワークである。
内ループRLにおける専門家のデモンストレーションを活用することにより、探査負担を軽減することが望ましい。
我々は、IRLにおけるRLの高速化のための代替アプローチとして、Emphpessimism、すなわち、オフラインのRLアルゴリズムを用いてインスタンス化された専門家のデータ分布に近づき続けることを考える。
論文 参考訳(メタデータ) (2024-02-04T21:22:29Z) - Inverse Reinforcement Learning without Reinforcement Learning [40.7783129322142]
逆強化学習(IRL)は、専門家によるデモンストレーションを合理化する報酬関数の学習を目的としている。
従来のIRL法では、サブルーチンとしてハード強化学習問題を繰り返し解決する必要がある。
我々は、RLの難解な問題を繰り返し解くために、模倣学習の容易な問題を減らした。
論文 参考訳(メタデータ) (2023-03-26T04:35:53Z) - Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum
Games [30.720112378448285]
逆強化学習をエキスパート-ラーナーインタラクションとして定式化する。
学習者エージェントに対して、専門家や対象エージェントの最適性能意図が不明である。
我々は、専門家や学習者エージェントのダイナミクスの知識を必要としない、政治以外のIRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-05T10:35:08Z) - Bayesian Q-learning With Imperfect Expert Demonstrations [56.55609745121237]
そこで本研究では,Q-ラーニングを高速化するアルゴリズムを提案する。
我々は,スパース・リワード・チェーン環境と,より複雑な6つのアタリゲームに対して,報酬の遅れによるアプローチを評価した。
論文 参考訳(メタデータ) (2022-10-01T17:38:19Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Discriminator Soft Actor Critic without Extrinsic Rewards [0.30586855806896046]
少数の専門家データとサンプリングデータから、未知の状態においてうまく模倣することは困難である。
本稿では,このアルゴリズムを分散シフトに対してより堅牢にするために,DSAC(Distriminator Soft Actor Critic)を提案する。
論文 参考訳(メタデータ) (2020-01-19T10:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。