論文の概要: BC-IRL: Learning Generalizable Reward Functions from Demonstrations
- arxiv url: http://arxiv.org/abs/2303.16194v1
- Date: Tue, 28 Mar 2023 17:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 13:53:29.713295
- Title: BC-IRL: Learning Generalizable Reward Functions from Demonstrations
- Title(参考訳): BC-IRL: デモから一般化可能なリワード関数を学習する
- Authors: Andrew Szot, Amy Zhang, Dhruv Batra, Zsolt Kira, Franziska Meier
- Abstract要約: 逆強化学習法は、最大エントロピーIRLアプローチと比較して、より一般化された報酬関数を学習する。
我々は、BC-IRLが、説明的な単純なタスクと2つの連続的なロボット制御タスクでより良く一般化する報酬を学習し、一般化設定に挑戦する際のベースラインの成功率の2倍以上を達成することを示す。
- 参考スコア(独自算出の注目度): 51.535870379280155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How well do reward functions learned with inverse reinforcement learning
(IRL) generalize? We illustrate that state-of-the-art IRL algorithms, which
maximize a maximum-entropy objective, learn rewards that overfit to the
demonstrations. Such rewards struggle to provide meaningful rewards for states
not covered by the demonstrations, a major detriment when using the reward to
learn policies in new situations. We introduce BC-IRL a new inverse
reinforcement learning method that learns reward functions that generalize
better when compared to maximum-entropy IRL approaches. In contrast to the
MaxEnt framework, which learns to maximize rewards around demonstrations,
BC-IRL updates reward parameters such that the policy trained with the new
reward matches the expert demonstrations better. We show that BC-IRL learns
rewards that generalize better on an illustrative simple task and two
continuous robotic control tasks, achieving over twice the success rate of
baselines in challenging generalization settings.
- Abstract(参考訳): 逆強化学習(IRL)による報酬関数の一般化
最大エントロピー目標を最大化する最先端のIRLアルゴリズムは、デモに過度に適合する報酬を学習する。
このような報酬は、デモの対象になっていない州に対して有意義な報酬を与えるのに苦労し、新しい状況で政策を学ぶために報酬を使用する場合の大きな障害となる。
我々は,最大エントロピーIRL手法と比較して,報酬関数をより一般化する逆強化学習法であるBC-IRLを紹介する。
デモに関する報酬を最大化することを学ぶMaxEntフレームワークとは対照的に、BC-IRLは、新しい報酬でトレーニングされたポリシーが専門家のデモンストレーションに合うように報酬パラメータを更新する。
その結果,bc-irlは単純な作業と2つの連続的なロボット制御タスクでより一般化した報酬を学習し,一般化に挑戦する上で,ベースラインの2倍以上の成功率を達成した。
関連論文リスト
- Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - Bayesian Inverse Reinforcement Learning for Non-Markovian Rewards [7.2933135237680595]
逆強化学習(IRL)は、専門家の行動から報酬関数を推定する問題である。
報酬関数は非マルコフ的であり、報酬機械(RM)のような現在の状態以上のものに依存する。
本稿では,専門家の行動からRMを直接推定するためのベイズIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T04:41:54Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Context-Hierarchy Inverse Reinforcement Learning [30.71220625227959]
逆強化学習(IRL)エージェントは、専門家のデモンストレーションを観察し、専門家の根底にある報酬関数を学習することで知的に行動することを学ぶ。
本稿では、コンテキスト階層IRL(CHIRL)を提案する。これは、コンテキストを利用してIRLをスケールアップし、複雑な振る舞いの報酬関数を学習する新しいIRLアルゴリズムである。
CARLAシミュレータにおける大規模自律運転タスクを含むベンチマークタスクの実験は、複雑な報酬関数を持つタスクに対してIRLをスケールアップする有望な結果を示している。
論文 参考訳(メタデータ) (2022-02-25T10:29:05Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Regularized Inverse Reinforcement Learning [49.78352058771138]
逆強化学習(IRL)は、学習者が専門家の行動を模倣する能力を促進することを目的としている。
正規化IRLは学習者のポリシーに強い凸正則化を施す。
正規化IRLのためのトラクタブルソリューションとそれを得るための実用的な方法を提案する。
論文 参考訳(メタデータ) (2020-10-07T23:38:47Z) - oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally
Extended Actions [37.66289166905027]
与えられた環境に対する報酬関数の明示的エンジニアリングは、強化学習方法の大きな障害となっている。
本稿では,階層的不整合報酬を選択肢に対するポリシーで学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T22:21:41Z) - Joint Goal and Strategy Inference across Heterogeneous Demonstrators via
Reward Network Distillation [1.1470070927586016]
逆強化学習(IRL)は、容易に達成された人間の実演から報酬関数を学ぼうとする。
本稿では,ネットワーク蒸留による課題目標と人間の戦略的嗜好を共同で推測する手法を提案する。
本アルゴリズムは,2つの模擬タスクと実世界の卓球タスクにおいて,タスク報酬と戦略報酬をよりよく回収し,戦略を模倣できることを示す。
論文 参考訳(メタデータ) (2020-01-02T16:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。