論文の概要: Transfer Reinforcement Learning in Heterogeneous Action Spaces using Subgoal Mapping
- arxiv url: http://arxiv.org/abs/2410.14484v1
- Date: Fri, 18 Oct 2024 14:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:27.942769
- Title: Transfer Reinforcement Learning in Heterogeneous Action Spaces using Subgoal Mapping
- Title(参考訳): サブゴールマッピングを用いた異種行動空間における伝達強化学習
- Authors: Kavinayan P. Sivakumar, Yan Zhang, Zachary Bell, Scott Nivison, Michael M. Zavlanos,
- Abstract要約: 本稿では,専門家エージェントポリシーと学習者エージェントポリシーのサブゴールマッピングを学習する手法を提案する。
タスクの分散のために,Long Short Term Memory (LSTM) ネットワークをトレーニングすることで,このサブゴールマッピングを学習する。
提案手法は,与えられたタスクの分布に基づくサブゴールマッピングを効果的に発見できることを実証する。
- 参考スコア(独自算出の注目度): 9.81076530822611
- License:
- Abstract: In this paper, we consider a transfer reinforcement learning problem involving agents with different action spaces. Specifically, for any new unseen task, the goal is to use a successful demonstration of this task by an expert agent in its action space to enable a learner agent learn an optimal policy in its own different action space with fewer samples than those required if the learner was learning on its own. Existing transfer learning methods across different action spaces either require handcrafted mappings between those action spaces provided by human experts, which can induce bias in the learning procedure, or require the expert agent to share its policy parameters with the learner agent, which does not generalize well to unseen tasks. In this work, we propose a method that learns a subgoal mapping between the expert agent policy and the learner agent policy. Since the expert agent and the learner agent have different action spaces, their optimal policies can have different subgoal trajectories. We learn this subgoal mapping by training a Long Short Term Memory (LSTM) network for a distribution of tasks and then use this mapping to predict the learner subgoal sequence for unseen tasks, thereby improving the speed of learning by biasing the agent's policy towards the predicted learner subgoal sequence. Through numerical experiments, we demonstrate that the proposed learning scheme can effectively find the subgoal mapping underlying the given distribution of tasks. Moreover, letting the learner agent imitate the expert agent's policy with the learnt subgoal mapping can significantly improve the sample efficiency and training time of the learner agent in unseen new tasks.
- Abstract(参考訳): 本稿では,異なる行動空間を持つエージェントが関与する伝達強化学習問題について考察する。
具体的には、新たな未知のタスクに対して、専門家エージェントによるアクション空間におけるこのタスクのデモンストレーションを成功させることで、学習者が学習している場合よりも少ないサンプルで、学習者が自身のアクション空間内で最適なポリシーを学習できるようにすることが目的である。
既存の移動学習方法は、人間の専門家が提供した行動空間間の手作りのマッピングを必要とするか、学習手順のバイアスを誘発する可能性があるか、あるいは専門家エージェントに、その政策パラメータを学習者エージェントと共有するよう要求する。
本研究では,専門家エージェントポリシーと学習者エージェントポリシーのサブゴールマッピングを学習する手法を提案する。
専門家エージェントと学習エージェントは異なる行動空間を持つため、最適なポリシーは異なるサブゴール軌道を持つことができる。
このサブゴールマッピングは,タスクの分散のためにLong Short Term Memory (LSTM) ネットワークをトレーニングして学習し,このマッピングを用いて未確認タスクの学習者サブゴールシーケンスを予測し,予測された学習者サブゴールシーケンスに対してエージェントのポリシーをバイアスすることで学習速度を向上させる。
数値実験により,提案手法が与えられたタスクの分布に基づくサブゴールマッピングを効果的に発見できることを実証した。
さらに、学習者エージェントが学習者エージェントの方針を学習者サブゴールマッピングで模倣させることで、学習者のエージェントのサンプル効率とトレーニング時間を大幅に向上させることができる。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Multi-Agent Transfer Learning via Temporal Contrastive Learning [8.487274986507922]
本稿では,深層多エージェント強化学習のための新しい伝達学習フレームワークを提案する。
このアプローチは、ゴール条件付きポリシーと時間的コントラスト学習を自動的に組み合わせて、意味のあるサブゴールを発見する。
論文 参考訳(メタデータ) (2024-06-03T14:42:14Z) - Proximal Curriculum with Task Correlations for Deep Reinforcement Learning [25.10619062353793]
エージェントの最終性能を複雑なタスクに対する目標分布として測定するコンテキストマルチタスク設定におけるカリキュラム設計について検討する。
本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:07:54Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。