論文の概要: Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning
- arxiv url: http://arxiv.org/abs/2002.05954v4
- Date: Wed, 6 Oct 2021 22:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 03:36:50.058142
- Title: Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning
- Title(参考訳): 経路計画を伴う連続制御タスクのための機能分解階層の学習
- Authors: Sammy Christen, Lukas Jendele, Emre Aksan, Otmar Hilliges
- Abstract要約: 我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
- 参考スコア(独自算出の注目度): 36.050432925402845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present HiDe, a novel hierarchical reinforcement learning architecture
that successfully solves long horizon control tasks and generalizes to unseen
test scenarios. Functional decomposition between planning and low-level control
is achieved by explicitly separating the state-action spaces across the
hierarchy, which allows the integration of task-relevant knowledge per layer.
We propose an RL-based planner to efficiently leverage the information in the
planning layer of the hierarchy, while the control layer learns a
goal-conditioned control policy. The hierarchy is trained jointly but allows
for the modular transfer of policy layers across hierarchies of different
agents. We experimentally show that our method generalizes across unseen test
environments and can scale to 3x horizon length compared to both learning and
non-learning based methods. We evaluate on complex continuous control tasks
with sparse rewards, including navigation and robot manipulation.
- Abstract(参考訳): 長方形制御タスクをうまく解決し,未認識のテストシナリオに一般化した,新しい階層型強化学習アーキテクチャであるhidを提案する。
計画と低レベルの制御の間の機能的な分解は、階層全体にわたる状態-アクション空間を明示的に分離することで達成される。
制御層が目標条件の制御ポリシを学習している間に,階層の計画層の情報を効率的に活用するRLベースのプランナを提案する。
階層は共同で訓練されるが、異なるエージェントの階層間でポリシー層のモジュラー転送を可能にする。
実験により,本手法は未知のテスト環境をまたいで一般化し,学習法と非学習法の両方と比較して3倍の地平線長まで拡張できることを示した。
ナビゲーションやロボット操作など,微妙な報酬を伴う複雑な連続制御タスクについて評価する。
関連論文リスト
- On the benefits of pixel-based hierarchical policies for task generalization [7.207480346660617]
強化学習実践者は、特に画像に基づく観察空間において、階層的な政策を避けることが多い。
画素からのマルチタスクロボット制御実験により階層構造の利点を解析する。
論文 参考訳(メタデータ) (2024-07-27T01:26:26Z) - Reinforcement Learning with Options and State Representation [105.82346211739433]
この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。
階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
論文 参考訳(メタデータ) (2024-03-16T08:30:55Z) - Use All The Labels: A Hierarchical Multi-Label Contrastive Learning
Framework [75.79736930414715]
本稿では,すべての利用可能なラベルを活用でき,クラス間の階層的関係を維持できる階層型多言語表現学習フレームワークを提案する。
比較損失に階層的ペナルティを併用し,その階層的制約を強制する。
論文 参考訳(メタデータ) (2022-04-27T21:41:44Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z) - Distilling a Hierarchical Policy for Planning and Control via
Representation and Reinforcement Learning [18.415568038071306]
エージェントが様々なタスクを実行し、新しいタスクに柔軟に対応できる階層的計画制御フレームワークを提案する。
各タスクに対する個別のポリシーを学ぶのではなく、提案するフレームワークであるdisHは、表現と強化学習によって一連のタスクから階層的なポリシーを蒸留する。
論文 参考訳(メタデータ) (2020-11-16T23:58:49Z) - From proprioception to long-horizon planning in novel environments: A
hierarchical RL model [4.44317046648898]
本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
論文 参考訳(メタデータ) (2020-06-11T17:19:12Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。