論文の概要: Adversarially Guided Subgoal Generation for Hierarchical Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2201.09635v1
- Date: Mon, 24 Jan 2022 12:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 23:07:54.382067
- Title: Adversarially Guided Subgoal Generation for Hierarchical Reinforcement
Learning
- Title(参考訳): 階層型強化学習のための逆案内サブゴアル生成
- Authors: Vivienne Huiling Wang, Joni Pajarinen, Tinghuai Wang, Joni
K\"am\"ar\"ainen
- Abstract要約: 本稿では,低レベル政策の現在のインスタンス化に適合するサブゴールを生成するために,高レベル政策を反対に強制することで,非定常性を緩和する新たなHRL手法を提案する。
最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 5.514236598436977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical reinforcement learning (HRL) proposes to solve difficult tasks
by performing decision-making and control at successively higher levels of
temporal abstraction. However, off-policy training in HRL often suffers from
the problem of non-stationary high-level decision making since the low-level
policy is constantly changing. In this paper, we propose a novel HRL approach
for mitigating the non-stationarity by adversarially enforcing the high-level
policy to generate subgoals compatible with the current instantiation of the
low-level policy. In practice, the adversarial learning can be implemented by
training a simple discriminator network concurrently with the high-level policy
which determines the compatibility level of subgoals. Experiments with
state-of-the-art algorithms show that our approach significantly improves
learning efficiency and overall performance of HRL in various challenging
continuous control tasks.
- Abstract(参考訳): 階層的強化学習 (HRL) は, 時間的抽象のレベルを連続的に高め, 意思決定と制御を行うことにより, 困難な課題を解決することを提案する。
しかしながら、HRLの非政治訓練は、低レベルの政策が常に変化しているため、非定常的な高レベルの意思決定の問題に悩まされることが多い。
本稿では,低レベル政策の現在のインスタンス化に対応するサブゴールを生成するために,高レベル政策を逆行することで,非定常性を緩和する新しいHRL手法を提案する。
実際、敵対的学習は、単純な判別子ネットワークと、サブゴールの互換性レベルを決定するハイレベルポリシーを同時に訓練することによって実現することができる。
最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
関連論文リスト
- Principled Penalty-based Methods for Bilevel Reinforcement Learning and
RLHF [92.98631843849503]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Guided Cooperation in Hierarchical Reinforcement Learning via
Model-based Rollout [15.165528591514386]
モデルベースロールアウト(GCMR)によるガイド協調による目標条件付き階層強化学習(HRL)フレームワークを提案する。
GCMRは、階層間協力を促進するためにフォワードダイナミクスを推定する。
本稿では,提案したGCMRフレームワークをHIGLのアンタングル型であるACLGに組み込むことで,ベースラインよりも安定かつ堅牢な政策改善が得られることを示す。
論文 参考訳(メタデータ) (2023-09-24T00:13:16Z) - Landmark Guided Active Exploration with Stable Low-level Policy Learning [6.1476023560720705]
本研究では,目標条件付き値関数に基づく目標空間の計画により,サブゴールの予測尺度を設計する。
本稿では,予測と新規性の両立によるランドマーク誘導探査戦略を提案する。
論文 参考訳(メタデータ) (2023-06-30T08:54:47Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Hierarchical Reinforcement Learning with Timed Subgoals [11.758625350317274]
Timed Subgoals (HiTS) を用いた階層型強化学習の導入
HiTSはエージェントがどの目標状態に到達すべきか、いつ到達するかを指定することで、そのタイミングを動的環境に適応させることを可能にする。
実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合,本手法はサンプル効率のよい学習が可能であることが確認された。
論文 参考訳(メタデータ) (2021-12-06T15:11:19Z) - Adjacency constraint for efficient hierarchical reinforcement learning [25.15808501708926]
目標条件強化学習(HRL)は、強化学習(RL)技術をスケールアップするための有望なアプローチである。
HRLは、高レベル、すなわちゴール空間のアクション空間が大きいため、トレーニングの非効率さに悩まされることが多い。
本研究では,高レベル動作空間を現在の状態の隣接する領域$k$-stepに制限することにより,この問題を効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2021-10-30T09:26:45Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement
Learning [22.319208517053816]
目標条件付き階層型強化学習(HRL)は、強化学習技術をスケールアップするための有望なアプローチである。
HRLは、高レベル、すなわちゴール空間のアクション空間がしばしば大きいため、トレーニングの非効率さに悩まされる。
動作空間上の制約は、現在の状態の$k$-stepの隣接領域に制限することで効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2020-06-20T03:34:45Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。