論文の概要: Temporal-adaptive Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.02080v1
- Date: Thu, 6 Feb 2020 02:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 12:49:11.987230
- Title: Temporal-adaptive Hierarchical Reinforcement Learning
- Title(参考訳): 時間適応型階層型強化学習
- Authors: Wen-Ji Zhou, Yang Yu
- Abstract要約: 階層的強化学習(HRL)は、強化学習における大規模かつスパースな報酬問題に対処するのに役立つ。
本稿では,時相ゲートを用いて高レベル政策決定頻度を適応的に制御する,時相適応型階層型ポリシー学習(TEMPLE)構造を提案する。
TEMPLEの構造をPPOでトレーニングし、2次元の部屋、Mujocoタスク、Atariゲームを含む様々な環境で性能をテストする。
- 参考スコア(独自算出の注目度): 7.571460904033682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical reinforcement learning (HRL) helps address large-scale and
sparse reward issues in reinforcement learning. In HRL, the policy model has an
inner representation structured in levels. With this structure, the
reinforcement learning task is expected to be decomposed into corresponding
levels with sub-tasks, and thus the learning can be more efficient. In HRL,
although it is intuitive that a high-level policy only needs to make macro
decisions in a low frequency, the exact frequency is hard to be simply
determined. Previous HRL approaches often employed a fixed-time skip strategy
or learn a terminal condition without taking account of the context, which,
however, not only requires manual adjustments but also sacrifices some decision
granularity. In this paper, we propose the \emph{temporal-adaptive hierarchical
policy learning} (TEMPLE) structure, which uses a temporal gate to adaptively
control the high-level policy decision frequency. We train the TEMPLE structure
with PPO and test its performance in a range of environments including 2-D
rooms, Mujoco tasks, and Atari games. The results show that the TEMPLE
structure can lead to improved performance in these environments with a
sequential adaptive high-level control.
- Abstract(参考訳): 階層的強化学習(HRL)は、強化学習における大規模かつスパースな報酬問題に対処するのに役立つ。
HRLでは、ポリシーモデルはレベルによって構成された内部表現を持つ。
この構造により、強化学習タスクはサブタスクで対応するレベルに分解されることが期待でき、学習をより効率的にすることができる。
HRLでは、高レベルポリシーがマクロ決定を低周波数で行う必要があるのは直感的であるが、正確な周波数は簡単に決定するのは難しい。
従来のHRLアプローチでは、コンテキストを考慮せずに、固定時間スキップ戦略や端末条件を学習することが多かったが、手動で調整するだけでなく、決定の粒度を犠牲にしている。
本稿では,時相ゲートを用いて高レベル政策決定頻度を適応的に制御するemph{temporal-adaptive Hierarchical Policy Learning} (TEMPLE) 構造を提案する。
TEMPLEの構造をPPOでトレーニングし、2次元の部屋、Mujocoタスク、Atariゲームを含む様々な環境で性能をテストする。
その結果,TEMPLE構造は,逐次適応型高レベル制御により,これらの環境の性能向上につながることが示された。
関連論文リスト
- Hierarchical Continual Reinforcement Learning via Large Language Model [15.837883929274758]
Hi-Coreはハイレベルな知識の伝達を容易にするように設計されている。
大規模言語モデル(LLM)による高レベルポリシー定式化
Hi-Coreは様々なCRLタスクの処理の有効性を示しており、一般的なベースラインを上回っている。
論文 参考訳(メタデータ) (2024-01-25T03:06:51Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Skill-Critic: Refining Learned Skills for Hierarchical Reinforcement Learning [48.75878234995544]
そこで本研究では,高レベルのスキル選択とともに,低レベルのポリシーを微調整するSkill-Criticアルゴリズムを提案する。
グラナ・トゥリストスポーツにおけるスパース・リワード自律レースタスクを含む,複数のスパース・リワード環境におけるスキル・クリティカルの検証を行った。
論文 参考訳(メタデータ) (2023-06-14T09:24:32Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Emergency action termination for immediate reaction in hierarchical
reinforcement learning [8.637919344171255]
本研究では,高レベル行動(低レベル目標)の有効性を常に高いレベルで検証する手法を提案する。
アクション、すなわち低レベルのゴールが不十分になった場合、より適切なアクションに置き換えられる。
このようにして、高速トレーニングである階層的RLと、即時反応性であるフラットなRLの利点を組み合わせる。
論文 参考訳(メタデータ) (2022-11-11T16:56:02Z) - Adversarially Guided Subgoal Generation for Hierarchical Reinforcement
Learning [5.514236598436977]
本稿では,低レベル政策の現在のインスタンス化に適合するサブゴールを生成するために,高レベル政策を反対に強制することで,非定常性を緩和する新たなHRL手法を提案する。
最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-01-24T12:30:38Z) - Hierarchical Reinforcement Learning with Timed Subgoals [11.758625350317274]
Timed Subgoals (HiTS) を用いた階層型強化学習の導入
HiTSはエージェントがどの目標状態に到達すべきか、いつ到達するかを指定することで、そのタイミングを動的環境に適応させることを可能にする。
実験により,既存の最先端のサブゴールベースHRL法が安定した解を学習できない場合,本手法はサンプル効率のよい学習が可能であることが確認された。
論文 参考訳(メタデータ) (2021-12-06T15:11:19Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。