Fugu-MT 論文翻訳(概要): Adjacency constraint for efficient hierarchical reinforcement learning

論文の概要: Adjacency constraint for efficient hierarchical reinforcement learning

arxiv url: http://arxiv.org/abs/2111.00213v1
Date: Sat, 30 Oct 2021 09:26:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-02 16:25:59.502589
Title: Adjacency constraint for efficient hierarchical reinforcement learning
Title（参考訳）: 階層型強化学習のための隣接制約
Authors: Tianren Zhang, Shangqi Guo, Tian Tan, Xiaolin Hu, Feng Chen
Abstract要約: 目標条件強化学習(HRL)は、強化学習(RL)技術をスケールアップするための有望なアプローチである。 HRLは、高レベル、すなわちゴール空間のアクション空間が大きいため、トレーニングの非効率さに悩まされることが多い。本研究では,高レベル動作空間を現在の状態の隣接する領域$k$-stepに制限することにより,この問題を効果的に緩和できることを示す。
参考スコア（独自算出の注目度）: 25.15808501708926
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Goal-conditioned Hierarchical Reinforcement Learning (HRL) is a promising approach for scaling up reinforcement learning (RL) techniques. However, it often suffers from training inefficiency as the action space of the high-level, i.e., the goal space, is large. Searching in a large goal space poses difficulty for both high-level subgoal generation and low-level policy learning. In this paper, we show that this problem can be effectively alleviated by restricting the high-level action space from the whole goal space to a $k$-step adjacent region of the current state using an adjacency constraint. We theoretically prove that in a deterministic Markov Decision Process (MDP), the proposed adjacency constraint preserves the optimal hierarchical policy, while in a stochastic MDP the adjacency constraint induces a bounded state-value suboptimality determined by the MDP's transition structure. We further show that this constraint can be practically implemented by training an adjacency network that can discriminate between adjacent and non-adjacent subgoals. Experimental results on discrete and continuous control tasks including challenging simulated robot locomotion and manipulation tasks show that incorporating the adjacency constraint significantly boosts the performance of state-of-the-art goal-conditioned HRL approaches.
Abstract（参考訳）: 目標条件付き階層型強化学習(HRL)は、強化学習(RL)技術をスケールアップするための有望なアプローチである。しかし、高レベルのアクション空間、すなわちゴール空間が大きいため、トレーニングの非効率さに悩まされることが多い。大きな目標空間での探索は、ハイレベルなサブゴール生成と低レベルなポリシー学習の両方に困難をもたらす。本稿では,高レベルな動作空間を目標空間全体から,隣接制約を用いて現在状態の$k$-step隣接領域に制限することにより,この問題を効果的に軽減できることを示す。理論的には,決定論的マルコフ決定過程 (mdp) において,提案する随伴制約は最適な階層的ポリシーを保ち,一方,確率的mdpでは随伴制約はmdpの遷移構造によって決定される有界な状態-値サブオプティリティを誘導する。さらに,隣接するサブゴールと非隣接サブゴールの区別が可能な隣接ネットワークをトレーニングすることで,この制約を実践可能であることを示す。ロボットのロコモーションと操作操作の課題を含む離散的かつ連続的な制御タスクの実験結果は、隣接制約を組み込むことで、最先端の目標条件付きhrlアプローチの性能が著しく向上することを示している。

関連論文リスト

COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文参考訳（メタデータ） (2025-02-12T01:31:01Z)
Diffusion Predictive Control with Constraints [51.91057765703533]
制約付き拡散予測制御(DPCC) トレーニングデータから逸脱可能な、明示的な状態と行動制約を持つ拡散制御アルゴリズム。 DPCCは,学習した制御タスクの性能を維持しつつ,新しいテスト時間制約を満たす上で,既存の手法よりも優れるロボットマニピュレータのシミュレーションを通して示す。
論文参考訳（メタデータ） (2024-12-12T15:10:22Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning [54.20447310988282]
異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
論文参考訳（メタデータ） (2024-06-21T13:17:33Z)
MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback and Dynamic Distance Constraint [40.3872201560003]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-22T03:11:09Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。 SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。 SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文参考訳（メタデータ） (2023-05-18T10:37:54Z)
Handling Long and Richly Constrained Tasks through Constrained Hierarchical Reinforcement Learning [20.280636126917614]
目標の安全性強化学習(RL)の設定は通常、軌道上の制約によって処理される。本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。 CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
論文参考訳（メタデータ） (2023-02-21T12:57:12Z)
Adversarially Guided Subgoal Generation for Hierarchical Reinforcement Learning [5.514236598436977]
本稿では,低レベル政策の現在のインスタンス化に適合するサブゴールを生成するために,高レベル政策を反対に強制することで,非定常性を緩和する新たなHRL手法を提案する。最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
論文参考訳（メタデータ） (2022-01-24T12:30:38Z)
Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文参考訳（メタデータ） (2021-11-04T22:46:16Z)
Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-11-16T13:16:22Z)
Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning [22.319208517053816]
目標条件付き階層型強化学習(HRL)は、強化学習技術をスケールアップするための有望なアプローチである。 HRLは、高レベル、すなわちゴール空間のアクション空間がしばしば大きいため、トレーニングの非効率さに悩まされる。動作空間上の制約は、現在の状態の$k$-stepの隣接領域に制限することで効果的に緩和できることを示す。
論文参考訳（メタデータ） (2020-06-20T03:34:45Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。