論文の概要: From proprioception to long-horizon planning in novel environments: A
hierarchical RL model
- arxiv url: http://arxiv.org/abs/2006.06620v1
- Date: Thu, 11 Jun 2020 17:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 12:54:36.932076
- Title: From proprioception to long-horizon planning in novel environments: A
hierarchical RL model
- Title(参考訳): 新しい環境における固有概念から長期計画へ:階層的RLモデル
- Authors: Nishad Gothoskar, Miguel L\'azaro-Gredilla, Dileep George
- Abstract要約: 本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
- 参考スコア(独自算出の注目度): 4.44317046648898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For an intelligent agent to flexibly and efficiently operate in complex
environments, they must be able to reason at multiple levels of temporal,
spatial, and conceptual abstraction. At the lower levels, the agent must
interpret their proprioceptive inputs and control their muscles, and at the
higher levels, the agent must select goals and plan how they will achieve those
goals. It is clear that each of these types of reasoning is amenable to
different types of representations, algorithms, and inputs. In this work, we
introduce a simple, three-level hierarchical architecture that reflects these
distinctions. The low-level controller operates on the continuous
proprioceptive inputs, using model-free learning to acquire useful behaviors.
These in turn induce a set of mid-level dynamics, which are learned by the
mid-level controller and used for model-predictive control, to select a
behavior to activate at each timestep. The high-level controller leverages a
discrete, graph representation for goal selection and path planning to specify
targets for the mid-level controller. We apply our method to a series of
navigation tasks in the Mujoco Ant environment, consistently demonstrating
significant improvements in sample-efficiency compared to prior model-free,
model-based, and hierarchical RL methods. Finally, as an illustrative example
of the advantages of our architecture, we apply our method to a complex maze
environment that requires efficient exploration and long-horizon planning.
- Abstract(参考訳): インテリジェントエージェントが複雑な環境で柔軟かつ効率的に動作するためには、時間的、空間的、概念的な抽象化の複数のレベルを推論する必要がある。
下層では、エージェントは、受容性入力を解釈し、筋肉を制御する必要があり、上層では、エージェントは目標を選択し、その目標を達成する方法を計画しなければならない。
これらのタイプの推論は、それぞれ異なる種類の表現、アルゴリズム、入力に対応可能であることは明らかである。
本稿では,これらの区別を反映した,単純で3段階の階層構造を提案する。
低レベルコントローラは、モデルなし学習を用いて有用な行動を取得することで、連続した受容入力で動作する。
これらは、ミッドレベルコントローラによって学習され、モデル予測制御に使用される中レベルダイナミクスのセットを誘導し、各タイムステップでアクティベートする動作を選択する。
高レベルコントローラは、目標選択と経路計画のための離散グラフ表現を利用して、中間レベルコントローラのターゲットを指定する。
我々は,Mujoco Ant環境における一連のナビゲーションタスクに適用し,従来のモデルフリー,モデルベース,階層的RL手法と比較して,サンプル効率の大幅な改善を一貫して示す。
最後に、我々のアーキテクチャの利点を示す例として、効率的な探索と長期計画を必要とする複雑な迷路環境に適用する。
関連論文リスト
- Object-centric proto-symbolic behavioural reasoning from pixels [0.0]
我々は、ピクセルから学習し、その環境を解釈し、制御し、推論する脳に触発されたディープラーニングアーキテクチャを提案する。
その結果,エージェントは創発的条件付き行動推論を学習できることがわかった。
提案アーキテクチャは、教師なし学習における重要な帰納バイアスとして、接地オブジェクト表現の操作方法を示す。
論文 参考訳(メタデータ) (2024-11-26T13:54:24Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Forecaster: Towards Temporally Abstract Tree-Search Planning from Pixels [42.275164872809746]
Forecasterは、階層的な強化学習アプローチで、高いレベルの目標を計画する。
Forecasterは、トランジッションのダイナミクスを抽象レベルでモデル化することで、環境の抽象モデルを学ぶ。
次に、この世界モデルを使用して、ツリー探索計画手順を通じて最適なハイレベルな目標を選択する。
論文 参考訳(メタデータ) (2023-10-16T01:13:26Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。