論文の概要: Task Relabelling for Multi-task Transfer using Successor Features
- arxiv url: http://arxiv.org/abs/2205.10175v1
- Date: Fri, 20 May 2022 13:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 20:52:06.921134
- Title: Task Relabelling for Multi-task Transfer using Successor Features
- Title(参考訳): 後継機能を用いたマルチタスク転送のためのタスクリラベリング
- Authors: Martin Balla and Diego Perez-Liebana
- Abstract要約: 継承機能(SF)は、特定の報酬関数に縛られないポリシーを学習可能にするメカニズムを提案する。
本研究では,資源収集,トラップ,工芸を特徴とするカスタム環境において,SFを報奨なく事前トレーニングする方法について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning has been very successful recently with various
works on complex domains. Most works are concerned with learning a single
policy that solves the target task, but is fixed in the sense that if the
environment changes the agent is unable to adapt to it. Successor Features
(SFs) proposes a mechanism that allows learning policies that are not tied to
any particular reward function. In this work we investigate how SFs may be
pre-trained without observing any reward in a custom environment that features
resource collection, traps and crafting. After pre-training we expose the SF
agents to various target tasks and see how well they can transfer to new tasks.
Transferring is done without any further training on the SF agents, instead
just by providing a task vector. For training the SFs we propose a task
relabelling method which greatly improves the agent's performance.
- Abstract(参考訳): 深層強化学習は最近、複雑なドメインに関する様々な研究で非常に成功しています。
ほとんどの仕事は、対象とするタスクを解決する単一のポリシーを学ぶことに関心があるが、環境が変化してもエージェントがそれに対応できないという意味で固定されている。
継承機能(SF)は、特定の報酬関数に縛られないポリシーを学習可能にするメカニズムを提案する。
本研究では,資源収集,トラップ,工芸を特徴とするカスタム環境において,SFを報奨なく事前トレーニングする方法を検討する。
事前トレーニング後、さまざまなターゲットタスクにsfエージェントを公開し、新しいタスクにどの程度移行できるかを確認します。
転送はSFエージェントのさらなるトレーニングなしに行われ、代わりにタスクベクタを提供することによって行われる。
SFのトレーニングにおいて,エージェントの性能を大幅に向上させるタスクリラベリング手法を提案する。
関連論文リスト
- Combining Behaviors with the Successor Features Keyboard [55.983751286962985]
SFK(Successor Features Keyboard)は、検出された状態特徴とタスクエンコーディングによる転送を可能にする。
難易度の高い3次元環境において, SFによる移動を初めて実演する。
論文 参考訳(メタデータ) (2023-10-24T15:35:54Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Multi-Agent Policy Transfer via Task Relationship Modeling [28.421365805638953]
我々は、タスク間の共通構造を発見し、活用し、より効率的な転送を試みる。
本稿では,タスクの共通空間として効果に基づくタスク表現を学習する。
その結果,提案手法は,学習した協調知識をいくつかのソースタスクの学習後に新しいタスクに伝達するのに役立つ。
論文 参考訳(メタデータ) (2022-03-09T01:49:21Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。