論文の概要: Delay-Empowered Causal Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.12261v1
- Date: Tue, 12 May 2026 15:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.963346
- Title: Delay-Empowered Causal Hierarchical Reinforcement Learning
- Title(参考訳): 遅延駆動型因果的階層的強化学習
- Authors: Chenran Zhao, Dianxi Shi, Haotian Wang, Mengzhu Wang, Yaowen Zhang, Chunping Qiu, Shaowu Yang,
- Abstract要約: Delay-Empowered Causal Hierarchical Reinforcement Learning (DECHRL)を提案する。
DECHRLは状態遷移の因果構造と関連する遅延分布の両方を明示的にモデル化する。
遅延を考慮した2DMinecraftおよびMiniGrid環境におけるDECHRLの評価を行った。
- 参考スコア(独自算出の注目度): 24.381499367239858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world tasks involve delayed effects, where the outcomes of actions emerge after varying time lags. Existing delay-aware reinforcement learning methods often rely on state augmentation, prior knowledge of delay distributions, or access to non-delayed data, limiting their generalization. Hierarchical reinforcement learning, by contrast, inherently offers advantages in handling delays due to its hierarchical structure, yet existing methods are restricted to fixed delays. To address these limitations, we propose Delay-Empowered Causal Hierarchical Reinforcement Learning (DECHRL). DECHRL explicitly models both the causal structure of state transitions and their associated stochastic delay distributions. These are then incorporated into a delay-aware empowerment objective that drives proactive exploration toward highly controllable states, thereby improving performance under temporal uncertainty. We evaluate DECHRL in modified 2D-Minecraft and MiniGrid environments featuring stochastic delays. Experimental results show that DECHRL effectively models temporal delays and significantly outperforms baselines in decision-making under temporal uncertainty.
- Abstract(参考訳): 多くの実世界のタスクには遅延効果があり、様々な時間ラグの後に行動の結果が現れる。
既存の遅延対応強化学習法は、しばしば、状態の増大、遅延分布の事前の知識、あるいは非遅延データへのアクセスに依存し、一般化を制限している。
一方、階層的強化学習は、本質的には階層構造による遅延処理の利点を提供するが、既存の手法は固定遅延に制限されている。
これらの制約に対処するため,Delay-Empowered Causal Hierarchical Reinforcement Learning (DECHRL)を提案する。
DECHRLは状態遷移の因果構造と関連する確率的遅延分布の両方を明示的にモデル化する。
これらは、高度に制御可能な状態への積極的な探索を駆動し、時間的不確実性の下での性能を向上させる遅延認識のエンパワーメント目標に組み込まれる。
確率的遅延を考慮した2D-MinecraftおよびMiniGrid環境におけるDECHRLの評価を行った。
実験の結果,DeCHRLは時間的遅延を効果的にモデル化し,時間的不確実性の下での意思決定の基準線を著しく上回ることがわかった。
関連論文リスト
- When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making [68.12864562049957]
身体ロボットシステムは、高レベルの推論をサポートするために、大規模言語モデル(LLM)ベースのエージェントにますます依存している。
エージェントはいつ、いつ、いつ行動すべきか?
本稿では,エンボディエージェントのリソース・アウェア・オーケストレーションのための階層的なフレームワークであるRARRL(Resource-Aware Reasoning via Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2026-03-17T15:38:50Z) - Reinforcement Learning via Conservative Agent for Environments with Random Delays [2.115993069505241]
本稿では,ランダム遅延下での意思決定のための単純かつ堅牢なエージェントを保守的エージェントと呼び,ランダム遅延環境を定遅延等価に再構成する。
これにより、アルゴリズム構造を変更したり性能を犠牲にすることなく、最先端の定数遅延法を直接ランダム遅延環境に拡張することができる。
論文 参考訳(メタデータ) (2025-07-25T06:41:06Z) - Adaptive Reinforcement Learning for Unobservable Random Delays [46.04329493317009]
本稿では,エージェントが観測不能かつ時間変化の遅れを適応的に処理できる汎用フレームワークを提案する。
具体的には、エージェントは予測不可能な遅延とネットワーク越しに送信される失われたアクションパケットの両方を処理するために、将来のアクションのマトリックスを生成する。
提案手法は,幅広いベンチマーク環境において,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-17T11:11:37Z) - DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays [26.032139258562708]
本稿では,解釈性を効果的に向上し,ランダム遅延問題に対処するためのフレームワークである$textbfDEER (Delay-Resilient-Enhanced RL)$を提案する。
様々な遅延シナリオでは、トレーニングされたエンコーダは、追加の修正を必要とせずに、標準のRLアルゴリズムとシームレスに統合することができる。
その結果, DEER は定常およびランダムな遅延設定において最先端の RL アルゴリズムよりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-05T09:45:26Z) - Boosting Reinforcement Learning with Strongly Delayed Feedback Through Auxiliary Short Delays [41.52768902667611]
強化学習(Reinforcement Learning, RL)は、事象と知覚知覚の間の遅延の一般的な場合において困難である。
本稿では、短時間の遅延を含む補助的なタスクを活用して、長時間の遅延でRLを高速化する、Auxiliary-Delayed Reinforcement Learning (AD-RL) 法を提案する。
具体的には、AD-RLは短い遅延に対する値関数を学習し、ブートストラップとポリシー改善技術を用いて長い遅延に調整する。
論文 参考訳(メタデータ) (2024-02-05T16:11:03Z) - Delays in Reinforcement Learning [2.5835347022640254]
この論文は、エージェントの環境状態の観察やエージェントの行動の実行の遅延を研究することを目的としている。
幅広い遅延が考慮され、潜在的な解決策が提示される。
論文 参考訳(メタデータ) (2023-09-20T07:04:46Z) - Neural Laplace Control for Continuous-time Delayed Systems [76.81202657759222]
本稿では,ニューラルラプラス力学モデルとモデル予測制御(MPC)プランナを組み合わせた連続時間モデルに基づくオフラインRL法を提案する。
専門家の政策性能に近い連続的な遅延環境を実験的に示す。
論文 参考訳(メタデータ) (2023-02-24T12:40:28Z) - Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。
遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文 参考訳(メタデータ) (2021-08-17T10:45:55Z) - Stochastic bandits with arm-dependent delays [102.63128271054741]
我々は、単純なUCBベースのアルゴリズムであるPatentBanditsを提案する。
問題に依存しない境界も問題に依存しない境界も、性能の低い境界も提供します。
論文 参考訳(メタデータ) (2020-06-18T12:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。