論文の概要: Hierarchical Reinforcement Learning with Timed Subgoals
- arxiv url: http://arxiv.org/abs/2112.03100v1
- Date: Mon, 6 Dec 2021 15:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 17:38:52.765188
- Title: Hierarchical Reinforcement Learning with Timed Subgoals
- Title(参考訳): timed subgoalsを用いた階層型強化学習
- Authors: Nico G\"urtler, Dieter B\"uchler, Georg Martius
- Abstract要約: Timed Subgoals (HiTS) を用いた階層型強化学習の導入
HiTSはエージェントがどの目標状態に到達すべきか、いつ到達するかを指定することで、そのタイミングを動的環境に適応させることを可能にする。
実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合,本手法はサンプル効率のよい学習が可能であることが確認された。
- 参考スコア(独自算出の注目度): 11.758625350317274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical reinforcement learning (HRL) holds great potential for
sample-efficient learning on challenging long-horizon tasks. In particular,
letting a higher level assign subgoals to a lower level has been shown to
enable fast learning on difficult problems. However, such subgoal-based methods
have been designed with static reinforcement learning environments in mind and
consequently struggle with dynamic elements beyond the immediate control of the
agent even though they are ubiquitous in real-world problems. In this paper, we
introduce Hierarchical reinforcement learning with Timed Subgoals (HiTS), an
HRL algorithm that enables the agent to adapt its timing to a dynamic
environment by not only specifying what goal state is to be reached but also
when. We discuss how communicating with a lower level in terms of such timed
subgoals results in a more stable learning problem for the higher level. Our
experiments on a range of standard benchmarks and three new challenging dynamic
reinforcement learning environments show that our method is capable of
sample-efficient learning where an existing state-of-the-art subgoal-based HRL
method fails to learn stable solutions.
- Abstract(参考訳): 階層的強化学習(HRL)は、長期的課題に対するサンプル効率の学習に大きな可能性を秘めている。
特に、より高いレベルのサブゴールを低いレベルに割り当てることによって、難しい問題に対する迅速な学習が可能になることが示されている。
しかし、このようなサブゴールベースの手法は静的強化学習環境を念頭に設計されており、現実の課題に至らず、エージェントの即時制御を超えた動的要素に悩まされている。
本稿では,hplアルゴリズムであるtimed subgoals(hits)を用いた階層的強化学習について紹介する。
このような時間的サブゴールの観点から、低レベルとのコミュニケーションが、より高いレベルのより安定した学習問題をもたらすかについて議論する。
各種標準ベンチマークと3つの新しい動的強化学習環境に関する実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合に,本手法がサンプル効率のよい学習が可能なことを示す。
関連論文リスト
- MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback
and Dynamic Distance Constraint [40.3872201560003]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。
現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。
本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T03:11:09Z) - Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF [82.73541793388]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning [25.84621883831624]
我々は、低レベルのプリミティブを進化させるための達成可能なサブゴールのカリキュラムを生成する新しいHRLアルゴリズムであるCRISPを提案する。
CRISPは低レベルのプリミティブを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーベリングを行う。
実世界のシナリオにおいてCRISPは印象的な一般化を示す。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Emergency action termination for immediate reaction in hierarchical
reinforcement learning [8.637919344171255]
本研究では,高レベル行動(低レベル目標)の有効性を常に高いレベルで検証する手法を提案する。
アクション、すなわち低レベルのゴールが不十分になった場合、より適切なアクションに置き換えられる。
このようにして、高速トレーニングである階層的RLと、即時反応性であるフラットなRLの利点を組み合わせる。
論文 参考訳(メタデータ) (2022-11-11T16:56:02Z) - Adversarially Guided Subgoal Generation for Hierarchical Reinforcement
Learning [5.514236598436977]
本稿では,低レベル政策の現在のインスタンス化に適合するサブゴールを生成するために,高レベル政策を反対に強制することで,非定常性を緩和する新たなHRL手法を提案する。
最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-01-24T12:30:38Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。