論文の概要: Successor Feature Neural Episodic Control
- arxiv url: http://arxiv.org/abs/2111.03110v1
- Date: Thu, 4 Nov 2021 19:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 14:18:54.705947
- Title: Successor Feature Neural Episodic Control
- Title(参考訳): 後継機能型ニューラルエピソード制御
- Authors: David Emukpere, Xavier Alameda-Pineda and Chris Reinke
- Abstract要約: 強化学習の長年の目標は、速い学習と、人間や動物に似た柔軟なスキルの移譲を示すインテリジェントなエージェントを構築することである。
本稿では,これらの目標に対処するための2つのフレームワーク – エピソード制御と後継機能 – の統合について検討する。
- 参考スコア(独自算出の注目度): 20.02137956520436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A longstanding goal in reinforcement learning is to build intelligent agents
that show fast learning and a flexible transfer of skills akin to humans and
animals. This paper investigates the integration of two frameworks for tackling
those goals: episodic control and successor features. Episodic control is a
cognitively inspired approach relying on episodic memory, an instance-based
memory model of an agent's experiences. Meanwhile, successor features and
generalized policy improvement (SF&GPI) is a meta and transfer learning
framework allowing to learn policies for tasks that can be efficiently reused
for later tasks which have a different reward function. Individually, these two
techniques have shown impressive results in vastly improving sample efficiency
and the elegant reuse of previously learned policies. Thus, we outline a
combination of both approaches in a single reinforcement learning framework and
empirically illustrate its benefits.
- Abstract(参考訳): 強化学習の長年の目標は、高速学習と人間や動物に似た柔軟なスキルの移譲を示すインテリジェントエージェントを構築することである。
本稿では,これらの目標に取り組むための2つのフレームワークの統合について検討する。
エピソディック制御は、エージェントの体験のインスタンスベースメモリモデルであるエピソディックメモリに依存する認知的にインスパイアされたアプローチである。
一方、後継機能と一般化されたポリシー改善(SF&GPI)は、異なる報酬関数を持つ後続のタスクに対して効率的に再利用可能なタスクのポリシーを学習するためのメタおよび転送学習フレームワークである。
これら2つのテクニックは、サンプル効率を大幅に改善し、以前に学習されたポリシーのエレガントな再利用を実現した。
そこで本研究では,両手法の組み合わせを単一の強化学習フレームワークで概説し,その利点を実証的に示す。
関連論文リスト
- Multi-Agent Transfer Learning via Temporal Contrastive Learning [8.487274986507922]
本稿では,深層多エージェント強化学習のための新しい伝達学習フレームワークを提案する。
このアプローチは、ゴール条件付きポリシーと時間的コントラスト学習を自動的に組み合わせて、意味のあるサブゴールを発見する。
論文 参考訳(メタデータ) (2024-06-03T14:42:14Z) - Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning
for Task-oriented Dialogue Systems [111.80916118530398]
強化学習(RL)技術は、ユーザ固有の目標を達成するための対話戦略を訓練するために、自然に利用することができる。
本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効果的に学習し,活用する方法という疑問に答えることを目的とする。
論文 参考訳(メタデータ) (2023-02-20T22:10:04Z) - Explaining Agent's Decision-making in a Hierarchical Reinforcement
Learning Scenario [0.6643086804649938]
強化学習(Reinforcement learning)は、行動心理学に基づく機械学習手法である。
本研究では,サブタスクからなる階層環境において,メモリベースで説明可能な強化学習手法を利用する。
論文 参考訳(メタデータ) (2022-12-14T01:18:45Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。