論文の概要: From proprioception to long-horizon planning in novel environments: A
hierarchical RL model
- arxiv url: http://arxiv.org/abs/2006.06620v1
- Date: Thu, 11 Jun 2020 17:19:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 12:54:36.932076
- Title: From proprioception to long-horizon planning in novel environments: A
hierarchical RL model
- Title(参考訳): 新しい環境における固有概念から長期計画へ:階層的RLモデル
- Authors: Nishad Gothoskar, Miguel L\'azaro-Gredilla, Dileep George
- Abstract要約: 本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
- 参考スコア(独自算出の注目度): 4.44317046648898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For an intelligent agent to flexibly and efficiently operate in complex
environments, they must be able to reason at multiple levels of temporal,
spatial, and conceptual abstraction. At the lower levels, the agent must
interpret their proprioceptive inputs and control their muscles, and at the
higher levels, the agent must select goals and plan how they will achieve those
goals. It is clear that each of these types of reasoning is amenable to
different types of representations, algorithms, and inputs. In this work, we
introduce a simple, three-level hierarchical architecture that reflects these
distinctions. The low-level controller operates on the continuous
proprioceptive inputs, using model-free learning to acquire useful behaviors.
These in turn induce a set of mid-level dynamics, which are learned by the
mid-level controller and used for model-predictive control, to select a
behavior to activate at each timestep. The high-level controller leverages a
discrete, graph representation for goal selection and path planning to specify
targets for the mid-level controller. We apply our method to a series of
navigation tasks in the Mujoco Ant environment, consistently demonstrating
significant improvements in sample-efficiency compared to prior model-free,
model-based, and hierarchical RL methods. Finally, as an illustrative example
of the advantages of our architecture, we apply our method to a complex maze
environment that requires efficient exploration and long-horizon planning.
- Abstract(参考訳): インテリジェントエージェントが複雑な環境で柔軟かつ効率的に動作するためには、時間的、空間的、概念的な抽象化の複数のレベルを推論する必要がある。
下層では、エージェントは、受容性入力を解釈し、筋肉を制御する必要があり、上層では、エージェントは目標を選択し、その目標を達成する方法を計画しなければならない。
これらのタイプの推論は、それぞれ異なる種類の表現、アルゴリズム、入力に対応可能であることは明らかである。
本稿では,これらの区別を反映した,単純で3段階の階層構造を提案する。
低レベルコントローラは、モデルなし学習を用いて有用な行動を取得することで、連続した受容入力で動作する。
これらは、ミッドレベルコントローラによって学習され、モデル予測制御に使用される中レベルダイナミクスのセットを誘導し、各タイムステップでアクティベートする動作を選択する。
高レベルコントローラは、目標選択と経路計画のための離散グラフ表現を利用して、中間レベルコントローラのターゲットを指定する。
我々は,Mujoco Ant環境における一連のナビゲーションタスクに適用し,従来のモデルフリー,モデルベース,階層的RL手法と比較して,サンプル効率の大幅な改善を一貫して示す。
最後に、我々のアーキテクチャの利点を示す例として、効率的な探索と長期計画を必要とする複雑な迷路環境に適用する。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Hierarchical hybrid modeling for flexible tool use [0.0]
本稿では,エージェントの構成を複製する複数のハイブリッドユニットで構成され,高レベル離散モデルによって制御されるアーキテクチャを提案する。
我々はこの階層的ハイブリッドモデルを非自明なタスクで評価し、移動ツールを選択した後、移動物体に到達した。
論文 参考訳(メタデータ) (2024-02-01T15:15:25Z) - Forecaster: Towards Temporally Abstract Tree-Search Planning from Pixels [42.275164872809746]
Forecasterは、階層的な強化学習アプローチで、高いレベルの目標を計画する。
Forecasterは、トランジッションのダイナミクスを抽象レベルでモデル化することで、環境の抽象モデルを学ぶ。
次に、この世界モデルを使用して、ツリー探索計画手順を通じて最適なハイレベルな目標を選択する。
論文 参考訳(メタデータ) (2023-10-16T01:13:26Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Chain-of-Thought Predictive Control [27.115967506563603]
我々は、複雑な低レベル制御タスクの実証から、一般化可能なポリシー学習について研究する。
本稿では,時間的抽象化の概念と階層的RLからの計画能力を取り入れた模倣学習手法を提案する。
提案手法であるChain-of-Thought Predictive Control (CoTPC) は,スケーラブルかつ高度に最適化されたデモから,低レベルの操作タスクに挑戦する上で,既存のものよりも優れています。
論文 参考訳(メタデータ) (2023-04-03T07:59:13Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。