論文の概要: Decoupled Hierarchical Reinforcement Learning with State Abstraction for Discrete Grids
- arxiv url: http://arxiv.org/abs/2506.02050v1
- Date: Sun, 01 Jun 2025 06:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.877232
- Title: Decoupled Hierarchical Reinforcement Learning with State Abstraction for Discrete Grids
- Title(参考訳): 離散格子に対する状態抽象化による階層強化学習の分離
- Authors: Qingyu Xiao, Yuanlin Chang, Youtian Du,
- Abstract要約: 本稿では、状態抽象化(DcHRL-SA)を統合した分離階層型RLフレームワークを提案する。
2つのグリッド環境における実験により,提案手法は探索効率,収束速度,累積報酬,政策安定性においてPPOを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 3.772834044395258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective agent exploration remains a core challenge in reinforcement learning (RL) for complex discrete state-space environments, particularly under partial observability. This paper presents a decoupled hierarchical RL framework integrating state abstraction (DcHRL-SA) to address this issue. The proposed method employs a dual-level architecture, consisting of a high level RL-based actor and a low-level rule-based policy, to promote effective exploration. Additionally, state abstraction method is incorporated to cluster discrete states, effectively lowering state dimensionality. Experiments conducted in two discrete customized grid environments demonstrate that the proposed approach consistently outperforms PPO in terms of exploration efficiency, convergence speed, cumulative reward, and policy stability. These results demonstrate a practical approach for integrating decoupled hierarchical policies and state abstraction in discrete grids with large-scale exploration space. Code will be available at https://github.com/XQY169/DcHRL-SA.
- Abstract(参考訳): 複雑な離散状態空間環境、特に部分可観測性の下では、効果的なエージェント探索が強化学習(RL)における中核的な課題である。
本稿では、状態抽象化(DcHRL-SA)を統合した分離階層型RLフレームワークを提案する。
提案手法は,高レベルなRLベースのアクターと低レベルなルールベースのポリシーからなる二重レベルアーキテクチャを用いて,効率的な探索を促進する。
さらに、状態抽象化法はクラスター離散状態に組み込まれ、状態の次元性を効果的に低下させる。
2つの個別のグリッド環境で実施された実験により、提案手法は探索効率、収束速度、累積報酬、政策安定性において一貫してPPOを上回っていることが示された。
これらの結果は,大規模探索空間を持つ離散グリッドにおいて,疎結合な階層的ポリシと状態抽象化を統合するための実践的アプローチを示す。
コードはhttps://github.com/XQY169/DcHRL-SAで入手できる。
関連論文リスト
- Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning [53.9544543607396]
我々は、報酬レンダリングとImitation from Observation (IfO)を統合した新しいフレームワークを提案する。
異なる方法でF距離をインスタンス化することにより、2つの理論的解析を導き、アクセシブルステート指向ポリシー規則化(ASOR)と呼ばれる実用的なアルゴリズムを開発する。
ASOR は、オフライン RL やオフライン RL など、様々なアプローチ RL に組み込まれる一般的なアドオンモジュールとして機能する。
論文 参考訳(メタデータ) (2025-03-10T03:50:20Z) - Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z) - Adjacency constraint for efficient hierarchical reinforcement learning [25.15808501708926]
目標条件強化学習(HRL)は、強化学習(RL)技術をスケールアップするための有望なアプローチである。
HRLは、高レベル、すなわちゴール空間のアクション空間が大きいため、トレーニングの非効率さに悩まされることが多い。
本研究では,高レベル動作空間を現在の状態の隣接する領域$k$-stepに制限することにより,この問題を効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2021-10-30T09:26:45Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement
Learning [22.319208517053816]
目標条件付き階層型強化学習(HRL)は、強化学習技術をスケールアップするための有望なアプローチである。
HRLは、高レベル、すなわちゴール空間のアクション空間がしばしば大きいため、トレーニングの非効率さに悩まされる。
動作空間上の制約は、現在の状態の$k$-stepの隣接領域に制限することで効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2020-06-20T03:34:45Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。