論文の概要: A Fully Controllable Agent in the Path Planning using Goal-Conditioned
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.09967v1
- Date: Fri, 20 May 2022 05:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 06:16:36.482343
- Title: A Fully Controllable Agent in the Path Planning using Goal-Conditioned
Reinforcement Learning
- Title(参考訳): 目標条件強化学習を用いた経路計画における完全制御型エージェント
- Authors: GyeongTaek Lee
- Abstract要約: 経路計画において、経路は、エージェントが様々な目標に達することが重要であるなど、変数の数によって異なる場合がある。
経路計画における完全制御可能なエージェントのための新しい強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of path planning is to reach the goal from starting point by
searching for the route of an agent. In the path planning, the routes may vary
depending on the number of variables such that it is important for the agent to
reach various goals. Numerous studies, however, have dealt with a single goal
that is predefined by the user. In the present study, I propose a novel
reinforcement learning framework for a fully controllable agent in the path
planning. To do this, I propose a bi-directional memory editing to obtain
various bi-directional trajectories of the agent, in which the behavior of the
agent and sub-goals are trained on the goal-conditioned RL. As for moving the
agent in various directions, I utilize the sub-goals dedicated network,
separated from a policy network. Lastly, I present the reward shaping to
shorten the number of steps for the agent to reach the goal. In the
experimental result, the agent was able to reach the various goals that have
never been visited by the agent in the training. We confirmed that the agent
could perform difficult missions such as a round trip and the agent used the
shorter route with the reward shaping.
- Abstract(参考訳): 経路計画の目的は,エージェントの経路を探索して開始点から目標に到達することである。
経路計画において、経路は変数の数によって異なり、エージェントが様々な目標を達成することが重要である。
しかし、多くの研究がユーザーが事前に定義した1つの目標に対処している。
本研究では,経路計画における完全制御可能なエージェントのための新しい強化学習フレームワークを提案する。
そこで,本稿では,エージェントとサブゴールの動作を目標条件のrl上で訓練した,エージェントの双方向特性を得るための双方向メモリ編集を提案する。
エージェントをさまざまな方向に移動させるには,政策ネットワークから切り離されたサブゴール専用ネットワークを利用する。
最後に,エージェントが目標に達するまでのステップ数を短縮するために,報酬シェーピングを提案する。
実験の結果、エージェントは訓練中にエージェントが訪れたことのない様々な目標に到達することができた。
我々は、エージェントがラウンドトリップのような困難なミッションを遂行できることを確認し、エージェントは報酬を形作るための短いルートを使った。
関連論文リスト
- AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - Personalized Path Recourse for Reinforcement Learning Agents [4.768286204382179]
目標は、エージェントの本来のパスと高い類似性を確保しながら、望ましい目標を達成するために、与えられた行動経路を編集することである。
このようなパーソナライズされたパスを生成するために、パーソナライズされたリコースエージェントを訓練する。
提案手法は強化学習と教師あり学習設定の両方に適用できる。
論文 参考訳(メタデータ) (2023-12-14T08:10:57Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation [28.71585436726336]
マルチエージェント強化学習(MARL)では,この問題の解決に有望な結果が得られた。
目標条件付き階層型強化学習(HRL)は、この課題に取り組むための有望な方向性を提供する。
マルチエージェントナビゲーションタスクのためのグラフベースのゴール条件階層手法であるMAGE-Xを提案する。
論文 参考訳(メタデータ) (2023-02-08T14:44:21Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Towards Using Promises for Multi-Agent Cooperation in Goal Reasoning [15.924281804465254]
一般的に使われているゴール改善メカニズムであるゴールライフサイクルに、約束をどのように組み込むことができるかを示す。
次に、時間付き初期リテラルに接続することで、特定の目標を計画する際にPromiseをどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-06-20T15:57:51Z) - Learning user-defined sub-goals using memory editing in reinforcement
learning [0.0]
強化学習(RL)の目的は、エージェントが最終目標を達成することを可能にすることである。
本稿では,ユーザ定義のサブゴールを実現するための方法論と,メモリ編集による最終目標を提案する。
この方法論は、さまざまなシナリオでエージェントを制御する必要があるフィールドで使用できると期待しています。
論文 参考訳(メタデータ) (2022-05-01T05:19:51Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。