論文の概要: PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2102.12560v1
- Date: Wed, 24 Feb 2021 21:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 16:50:09.302686
- Title: PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning
- Title(参考訳): psiphi-learning:後継機能と逆時間差学習を用いた強化学習
- Authors: Angelos Filos, Clare Lyle, Yarin Gal, Sergey Levine, Natasha Jaques,
Gregory Farquhar
- Abstract要約: 時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
- 参考スコア(独自算出の注目度): 102.36450942613091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reinforcement learning (RL) with no-reward demonstrations, a setting
in which an RL agent has access to additional data from the interaction of
other agents with the same environment. However, it has no access to the
rewards or goals of these agents, and their objectives and levels of expertise
may vary widely. These assumptions are common in multi-agent settings, such as
autonomous driving. To effectively use this data, we turn to the framework of
successor features. This allows us to disentangle shared features and dynamics
of the environment from agent-specific rewards and policies. We propose a
multi-task inverse reinforcement learning (IRL) algorithm, called \emph{inverse
temporal difference learning} (ITD), that learns shared state features,
alongside per-agent successor features and preference vectors, purely from
demonstrations without reward labels. We further show how to seamlessly
integrate ITD with learning from online environment interactions, arriving at a
novel algorithm for reinforcement learning with demonstrations, called $\Psi
\Phi$-learning (pronounced `Sci-Fi'). We provide empirical evidence for the
effectiveness of $\Psi \Phi$-learning as a method for improving RL, IRL,
imitation, and few-shot transfer, and derive worst-case bounds for its
performance in zero-shot transfer to new tasks.
- Abstract(参考訳): 我々は、RLエージェントが他のエージェントと同一環境との相互作用から追加データにアクセス可能な設定である、非逆デモによる強化学習(RL)について研究する。
しかし、これらのエージェントの報酬や目標にはアクセスできず、その目的や専門知識のレベルは大きく異なる可能性がある。
これらの仮定は、自動運転などのマルチエージェント設定で一般的です。
このデータを効果的に利用するために、後継機能のフレームワークに目を向ける。
これにより、共有機能と環境のダイナミクスをエージェント固有の報酬やポリシーから切り離すことができます。
本論文では,エージェント毎の後継機能と選好ベクトルに加えて,純粋に報酬ラベルのないデモンストレーションから共有状態の特徴を学習する,マルチタスクの逆強化学習(IRL)アルゴリズムである \emph{inverse temporal difference learning} (ITD)を提案する。
さらに,オンライン環境インタラクションからの学習とitdをシームレスに統合する方法を示し,実演による強化学習のための新しいアルゴリズムである$\psi \phi$-learning('sci-fi'と発音する)を提示する。
我々は, rl, irl, 模倣, および少数ショット転送を改善する方法として$\psi \phi$-learningの有効性を実証的に示し, ゼロショットトランスファーにおける性能の最悪のケース境界を導出する。
関連論文リスト
- A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement
Learning with Sub-optimal Demonstrations [25.536792010283566]
逆強化学習(IRL)は、専門家による実験結果に基づいて、基礎となる報酬関数を明示的に推論することを目的としている。
本稿では,DRASRL(Distance-rank Aware Sequential Reward Learning)フレームワークを紹介する。
本フレームワークは,従来のSOTA手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-10-13T02:38:35Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - XIRL: Cross-embodiment Inverse Reinforcement Learning [25.793366206387827]
本研究では,クロスエボディメント・デモビデオから視覚に基づく報酬関数を自動的に学習できることを示す。
具体的には,クロス・エボディメント・逆強化学習のための自己指導手法を提案する。
学習した報酬関数は、トレーニング中に見られる実施形態だけでなく、全く新しい実施形態へと一般化する。
論文 参考訳(メタデータ) (2021-06-07T18:45:07Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。