論文の概要: Emergency action termination for immediate reaction in hierarchical
reinforcement learning
- arxiv url: http://arxiv.org/abs/2211.06351v1
- Date: Fri, 11 Nov 2022 16:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 15:58:16.205041
- Title: Emergency action termination for immediate reaction in hierarchical
reinforcement learning
- Title(参考訳): 階層的強化学習における即時反応に対する緊急行動停止
- Authors: Micha{\l} Bortkiewicz, Jakub {\L}yskawa, Pawe{\l} Wawrzy\'nski,
Mateusz Ostaszewski, Artur Grudkowski and Tomasz Trzci\'nski
- Abstract要約: 本研究では,高レベル行動(低レベル目標)の有効性を常に高いレベルで検証する手法を提案する。
アクション、すなわち低レベルのゴールが不十分になった場合、より適切なアクションに置き換えられる。
このようにして、高速トレーニングである階層的RLと、即時反応性であるフラットなRLの利点を組み合わせる。
- 参考スコア(独自算出の注目度): 8.637919344171255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical decomposition of control is unavoidable in large dynamical
systems. In reinforcement learning (RL), it is usually solved with subgoals
defined at higher policy levels and achieved at lower policy levels. Reaching
these goals can take a substantial amount of time, during which it is not
verified whether they are still worth pursuing. However, due to the randomness
of the environment, these goals may become obsolete. In this paper, we address
this gap in the state-of-the-art approaches and propose a method in which the
validity of higher-level actions (thus lower-level goals) is constantly
verified at the higher level. If the actions, i.e. lower level goals, become
inadequate, they are replaced by more appropriate ones. This way we combine the
advantages of hierarchical RL, which is fast training, and flat RL, which is
immediate reactivity. We study our approach experimentally on seven benchmark
environments.
- Abstract(参考訳): 制御の階層的分解は大きな力学系では避けられない。
強化学習(RL)では、通常、より高い政策レベルで定義されたサブゴールで解決され、低い政策レベルで達成される。
これらの目標を達成するにはかなりの時間を要する可能性があるが、その間にはまだ追求する価値があるかどうかが確かめられていない。
しかし、環境のランダム性のため、これらの目標が時代遅れになる可能性がある。
本稿では,このギャップを最先端のアプローチで解決し,より高いレベルのアクション(低いレベルの目標)の有効性を常に高いレベルで検証する手法を提案する。
アクション、すなわち低いレベルの目標が不十分になった場合、より適切なアクションに置き換えられる。
このようにして、高速トレーニングである階層的RLと、即時反応性であるフラットなRLの利点を組み合わせる。
7つのベンチマーク環境で実験を行った。
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Bidirectional-Reachable Hierarchical Reinforcement Learning with Mutually Responsive Policies [26.915223518488016]
階層強化学習(HRL)は、それらをサブゴールに分解することで複雑な長距離タスクに対処する。
本稿では,計算効率も向上する単純かつ効果的なアルゴリズムである双方向到達型階層型ポリシー最適化(BrHPO)を提案する。
様々な長期タスクの実験結果からは、BrHPOは他の最先端のHRLベースラインよりも優れており、探索効率と堅牢性が著しく高いことが示されている。
論文 参考訳(メタデータ) (2024-06-26T04:05:04Z) - A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning [54.20447310988282]
異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。
高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
論文 参考訳(メタデータ) (2024-06-21T13:17:33Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Adversarially Guided Subgoal Generation for Hierarchical Reinforcement
Learning [5.514236598436977]
本稿では,低レベル政策の現在のインスタンス化に適合するサブゴールを生成するために,高レベル政策を反対に強制することで,非定常性を緩和する新たなHRL手法を提案する。
最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-01-24T12:30:38Z) - Hierarchical Reinforcement Learning with Timed Subgoals [11.758625350317274]
Timed Subgoals (HiTS) を用いた階層型強化学習の導入
HiTSはエージェントがどの目標状態に到達すべきか、いつ到達するかを指定することで、そのタイミングを動的環境に適応させることを可能にする。
実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合,本手法はサンプル効率のよい学習が可能であることが確認された。
論文 参考訳(メタデータ) (2021-12-06T15:11:19Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Efficient Hierarchical Exploration with Stable Subgoal Representation
Learning [26.537055962523162]
本研究では,よく探索された領域におけるサブゴール埋め込みを安定化する状態特異な正規化を提案する。
我々は、新しい有望なサブゴールや国家を積極的に追求する効率的な階層的な探索戦略を開発する。
論文 参考訳(メタデータ) (2021-05-31T07:28:59Z) - Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement
Learning [22.319208517053816]
目標条件付き階層型強化学習(HRL)は、強化学習技術をスケールアップするための有望なアプローチである。
HRLは、高レベル、すなわちゴール空間のアクション空間がしばしば大きいため、トレーニングの非効率さに悩まされる。
動作空間上の制約は、現在の状態の$k$-stepの隣接領域に制限することで効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2020-06-20T03:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。