論文の概要: Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience
- arxiv url: http://arxiv.org/abs/2208.04919v1
- Date: Tue, 9 Aug 2022 17:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:58:13.533684
- Title: Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience
- Title(参考訳): 意図の基盤:過去の経験を用いた効率的な逆強化学習
- Authors: Marwa Abdulhai, Natasha Jaques, Sergey Levine
- Abstract要約: 逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
- 参考スコア(独自算出の注目度): 89.30876995059168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of inverse reinforcement learning (IRL) --
inferring the reward function of an agent from observing its behavior. IRL can
provide a generalizable and compact representation for apprenticeship learning,
and enable accurately inferring the preferences of a human in order to assist
them. %and provide for more accurate prediction. However, effective IRL is
challenging, because many reward functions can be compatible with an observed
behavior. We focus on how prior reinforcement learning (RL) experience can be
leveraged to make learning these preferences faster and more efficient. We
propose the IRL algorithm BASIS (Behavior Acquisition through Successor-feature
Intention inference from Samples), which leverages multi-task RL pre-training
and successor features to allow an agent to build a strong basis for intentions
that spans the space of possible goals in a given domain. When exposed to just
a few expert demonstrations optimizing a novel goal, the agent uses its basis
to quickly and effectively infer the reward function. Our experiments reveal
that our method is highly effective at inferring and optimizing demonstrated
reward functions, accurately inferring reward functions from less than 100
trajectories.
- Abstract(参考訳): 本稿では,逆強化学習 (irl) の問題点について考察する。
IRLは、見習い学習のための一般化可能でコンパクトな表現を提供し、その支援のために人間の好みを正確に推測することができる。
%となり,より正確な予測が可能となった。
しかし、多くの報酬関数は観察された振る舞いと互換性があるため、効果的なIRLは困難である。
事前強化学習(rl)体験をどのように活用して、これらの好みを迅速かつ効率的に学習できるかに注目した。
本稿では,マルチタスクrlプリトレーニングと後継機能を活用したirlアルゴリズムベース(サンプルからの後継機能インテント推論による獲得)を提案し,エージェントが与えられた領域内の目標の空間にまたがるインテンションの強固な基盤を構築することを可能にする。
新たな目標を最適化する少数の専門家によるデモンストレーションに曝されると、エージェントはその基礎を利用して報酬関数を迅速かつ効果的に推測する。
実験の結果,提案手法は,100トラジェクトリ未満の報酬関数を正確に推定し,報酬関数を推定し,最適化する上で極めて有効であることが判明した。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Inverse Reinforcement Learning via Matching of Optimality Profiles [2.561053769852449]
準最適あるいは不均一な性能の実証から報酬関数を学習するアルゴリズムを提案する。
提案手法は,報酬関数を最適化するためのポリシーが,報酬関数の適合に使用する実演よりも優れるような報酬関数を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-11-18T13:23:43Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。