論文の概要: Weighted Maximum Entropy Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.09611v1
- Date: Sat, 20 Aug 2022 06:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:47:42.284813
- Title: Weighted Maximum Entropy Inverse Reinforcement Learning
- Title(参考訳): 重み付き最大エントロピー逆強化学習
- Authors: The Viet Bui, Tien Mai, Patrick Jaillet
- Abstract要約: 逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
- 参考スコア(独自算出の注目度): 22.269565708490468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study inverse reinforcement learning (IRL) and imitation learning (IM),
the problems of recovering a reward or policy function from expert's
demonstrated trajectories. We propose a new way to improve the learning process
by adding a weight function to the maximum entropy framework, with the
motivation of having the ability to learn and recover the stochasticity (or the
bounded rationality) of the expert policy. Our framework and algorithms allow
to learn both a reward (or policy) function and the structure of the entropy
terms added to the Markov Decision Processes, thus enhancing the learning
procedure. Our numerical experiments using human and simulated demonstrations
and with discrete and continuous IRL/IM tasks show that our approach
outperforms prior algorithms.
- Abstract(参考訳): 逆強化学習 (IRL) と模倣学習 (IM) について検討し, 専門家の実証軌道から報酬や政策機能を回復する問題について考察した。
本稿では, 最大エントロピー枠組みに重み関数を付加し, 専門家政策の確率性(あるいは有界合理性)を学習し, 回復する能力を有することによって, 学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(あるいはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学習することができ、学習手順が強化される。
ヒトとシミュレートされた実演と離散的かつ連続的なIRL/IMタスクを用いた数値実験により,本手法が先行アルゴリズムより優れていることを示す。
関連論文リスト
- A Model-Based Approach for Improving Reinforcement Learning Efficiency
Leveraging Expert Observations [9.240917262195046]
本稿では,拡張損失関数における各成分の重みを自動的に調整するアルゴリズムを提案する。
様々な連続制御タスクの実験は、提案アルゴリズムが様々なベンチマークより優れていることを示した。
論文 参考訳(メタデータ) (2024-02-29T03:53:02Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - On Reward Structures of Markov Decision Processes [4.13365552362244]
マルコフ決定過程は、遷移カーネルと報酬関数によってパラメータ化することができる。
ロボット応用の需要に触発された強化学習に関連する様々な「コスト」について検討する。
単一状態値を推定するためのインスタンス固有のエラーを$tildeO(sqrtfractau_sn)$にバインドした新しい推定器を開発する。
論文 参考訳(メタデータ) (2023-08-28T22:29:16Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Weighted Entropy Modification for Soft Actor-Critic [95.37322316673617]
我々は,強化学習における最大シャノンエントロピーの原理を,定性的重みを持つ状態-作用対を特徴付けることにより,重み付きエントロピーに一般化する。
本稿では,導入した重み関数による自己バランス探索を動機とするアルゴリズムを提案し,実装の単純さに拘わらず,Mujocoタスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T04:36:03Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z) - Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。
本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T14:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。