論文の概要: Inverse Reinforcement Learning via Matching of Optimality Profiles
- arxiv url: http://arxiv.org/abs/2011.09264v2
- Date: Thu, 19 Nov 2020 08:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:28:10.814203
- Title: Inverse Reinforcement Learning via Matching of Optimality Profiles
- Title(参考訳): 最適性プロファイルのマッチングによる逆強化学習
- Authors: Luis Haug, Ivan Ovinnikov, Eugene Bykovets
- Abstract要約: 準最適あるいは不均一な性能の実証から報酬関数を学習するアルゴリズムを提案する。
提案手法は,報酬関数を最適化するためのポリシーが,報酬関数の適合に使用する実演よりも優れるような報酬関数を学習可能であることを示す。
- 参考スコア(独自算出の注目度): 2.561053769852449
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The goal of inverse reinforcement learning (IRL) is to infer a reward
function that explains the behavior of an agent performing a task. The
assumption that most approaches make is that the demonstrated behavior is
near-optimal. In many real-world scenarios, however, examples of truly optimal
behavior are scarce, and it is desirable to effectively leverage sets of
demonstrations of suboptimal or heterogeneous performance, which are easier to
obtain. We propose an algorithm that learns a reward function from such
demonstrations together with a weak supervision signal in the form of a
distribution over rewards collected during the demonstrations (or, more
generally, a distribution over cumulative discounted future rewards). We view
such distributions, which we also refer to as optimality profiles, as summaries
of the degree of optimality of the demonstrations that may, for example,
reflect the opinion of a human expert. Given an optimality profile and a small
amount of additional supervision, our algorithm fits a reward function, modeled
as a neural network, by essentially minimizing the Wasserstein distance between
the corresponding induced distribution and the optimality profile. We show that
our method is capable of learning reward functions such that policies trained
to optimize them outperform the demonstrations used for fitting the reward
functions.
- Abstract(参考訳): 逆強化学習(IRL)の目的は、タスクを実行するエージェントの振る舞いを説明する報酬関数を推論することである。
ほとんどのアプローチが示している仮定は、その行動がほぼ最適であるということである。
しかし、現実のシナリオの多くでは、真の最適動作の例は少なく、より簡単に得られる準最適または不均質な性能のデモンストレーションのセットを効果的に活用することが望ましい。
本稿では,このようなデモンストレーションから報酬関数を,デモ中に収集した報酬の分布(あるいはより一般的には,累積割引後の報酬の分布)という形で,弱い監視信号とともに学習するアルゴリズムを提案する。
我々は、このような分布を最適性プロファイル(Optimity profiles)と呼び、例えば、人間の専門家の見解を反映するであろうデモの最適性の度合いの要約と見なしている。
最適性プロファイルと少量の追加監督を与えられたアルゴリズムは、ニューラルネットワークとしてモデル化された報酬関数に適合し、対応する誘導分布と最適性プロファイルとのワッサーシュタイン距離を本質的に最小化する。
本手法は,報奨機能に適合するデモンストレーションを最適化するために訓練されたポリシーが,報奨機能を学習できることを示す。
関連論文リスト
- Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - D-Shape: Demonstration-Shaped Reinforcement Learning via Goal
Conditioning [48.57484755946714]
D-Shapeは模倣学習(IL)と強化学習(RL)を組み合わせた新しい手法である
本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。
スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し、サンプル効率の観点からRLよりも改善し、最適ポリシーに一貫した収束を示す。
論文 参考訳(メタデータ) (2022-10-26T02:28:32Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - LiMIIRL: Lightweight Multiple-Intent Inverse Reinforcement Learning [5.1779694507922835]
多目的逆強化学習は、異なる意図のデモンストレーションを合理化するために報酬関数のアンサンブルを見つけようとする。
特徴空間における実演の事前クラスタリングに基づくウォームスタート戦略を提案する。
また、一般的な期待値差尺度を一般化するMI-IRL性能指標を提案する。
論文 参考訳(メタデータ) (2021-06-03T12:00:38Z) - Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。
後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。
これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文 参考訳(メタデータ) (2021-03-14T15:00:08Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。