論文の概要: Learning user-defined sub-goals using memory editing in reinforcement
learning
- arxiv url: http://arxiv.org/abs/2205.00399v1
- Date: Sun, 1 May 2022 05:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 06:10:27.757707
- Title: Learning user-defined sub-goals using memory editing in reinforcement
learning
- Title(参考訳): 強化学習におけるメモリ編集を用いたユーザ定義サブゴール学習
- Authors: GyeongTaek Lee
- Abstract要約: 強化学習(RL)の目的は、エージェントが最終目標を達成することを可能にすることである。
本稿では,ユーザ定義のサブゴールを実現するための方法論と,メモリ編集による最終目標を提案する。
この方法論は、さまざまなシナリオでエージェントを制御する必要があるフィールドで使用できると期待しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of reinforcement learning (RL) is to allow the agent to achieve the
final goal. Most RL studies have focused on improving the efficiency of
learning to achieve the final goal faster. However, the RL model is very
difficult to modify an intermediate route in the process of reaching the final
goal. That is, the agent cannot be under control to achieve other sub-goals in
the existing studies. If the agent can go through the sub-goals on the way to
the destination, the RL can be applied and studied in various fields. In this
study, I propose a methodology to achieve the user-defined sub-goals as well as
the final goal using memory editing. The memory editing is performed to
generate various sub-goals and give an additional reward to the agent. In
addition, the sub-goals are separately learned from the final goal. I set two
simple environments and various scenarios in the test environments. As a
result, the agent almost successfully passed the sub-goals as well as the final
goal under control. Moreover, the agent was able to be induced to visit the
novel state indirectly in the environments. I expect that this methodology can
be used in the fields that need to control the agent in a variety of scenarios.
- Abstract(参考訳): 強化学習(rl)の目的は、エージェントが最終的な目標を達成することにある。
ほとんどのRL研究は、最終目標を早く達成するために学習の効率を改善することに重点を置いている。
しかし、RLモデルでは最終目標に達する過程で中間経路を変更することは極めて困難である。
すなわち、エージェントは既存の研究において他のサブゴールを達成するために制御できない。
エージェントが目的地に向かう途中でサブゴールを通過することができれば、RLを適用して様々な分野で研究することができる。
本研究では,ユーザ定義サブゴールを実現するための手法と,メモリ編集による最終目標を提案する。
メモリ編集を行い、様々なサブゴールを生成し、エージェントに追加の報酬を与える。
また、準ゴールは最終ゴールから別々に学習される。
テスト環境で2つの単純な環境とさまざまなシナリオを設定しました。
結果として、エージェントは、制御中の最終ゴールと同様に、ほとんどサブゴールを通過した。
さらに, エージェントは, 環境中で間接的に, 新規状態の訪問を誘導することができた。
この方法論は、さまざまなシナリオでエージェントを制御する必要がある分野で使用できると期待しています。
関連論文リスト
- NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal Exploration Augmentation via Pre-trained Skills for Sparse-Reward
Long-Horizon Goal-Conditioned Reinforcement Learning [6.540225358657128]
強化学習(Reinforcement Learning, RL)は、複雑な環境でスパース・リワード・ロングホライゾン・タスクを達成するのにしばしば苦労する。
ゴール条件強化学習(GCRL)は,手軽なサブゴールのカリキュラムを通じて,この問題に対処するために用いられている。
GCRLでは、エージェントが最終的に望ましいゴールへの経路を見つけるためには、新しいサブゴールの探索が不可欠である。
論文 参考訳(メタデータ) (2022-10-28T11:11:04Z) - A Fully Controllable Agent in the Path Planning using Goal-Conditioned
Reinforcement Learning [0.0]
経路計画において、経路は、エージェントが様々な目標に達することが重要であるなど、変数の数によって異なる場合がある。
経路計画における完全制御可能なエージェントのための新しい強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T05:18:03Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。