論文の概要: HG2P: Hippocampus-inspired High-reward Graph and Model-Free Q-Gradient Penalty for Path Planning and Motion Control
- arxiv url: http://arxiv.org/abs/2410.09505v1
- Date: Sat, 12 Oct 2024 11:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:04:51.740968
- Title: HG2P: Hippocampus-inspired High-reward Graph and Model-Free Q-Gradient Penalty for Path Planning and Motion Control
- Title(参考訳): HG2P:HippocampusにインスパイアされたハイリワードグラフとモデルフリーQ-グラディエントペナルティによる経路計画と運動制御
- Authors: Haoran Wang, Yaoru Sun, Zeshen Tang,
- Abstract要約: ゴール条件付き階層強化学習(HRL)は、複雑な到達タスクを単純なサブゴール条件付きタスクのシーケンスに分解する。
本稿では,脳機構をグラフベースで計画するHRLを橋渡しし,海馬-線条体様の二重制御系仮説を提案する。
- 参考スコア(独自算出の注目度): 12.49955844499153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-conditioned hierarchical reinforcement learning (HRL) decomposes complex reaching tasks into a sequence of simple subgoal-conditioned tasks, showing significant promise for addressing long-horizon planning in large-scale environments. This paper bridges the goal-conditioned HRL based on graph-based planning to brain mechanisms, proposing a hippocampus-striatum-like dual-controller hypothesis. Inspired by the brain mechanisms of organisms (i.e., the high-reward preferences observed in hippocampal replay) and instance-based theory, we propose a high-return sampling strategy for constructing memory graphs, improving sample efficiency. Additionally, we derive a model-free lower-level Q-function gradient penalty to resolve the model dependency issues present in prior work, improving the generalization of Lipschitz constraints in applications. Finally, we integrate these two extensions, High-reward Graph and model-free Gradient Penalty (HG2P), into the state-of-the-art framework ACLG, proposing a novel goal-conditioned HRL framework, HG2P+ACLG. Experimentally, the results demonstrate that our method outperforms state-of-the-art goal-conditioned HRL algorithms on a variety of long-horizon navigation tasks and robotic manipulation tasks.
- Abstract(参考訳): 目標条件付き階層強化学習(HRL)は、複雑な到達タスクを単純なサブゴール条件付きタスクのシーケンスに分解し、大規模環境における長期計画に対処するための重要な可能性を示す。
本稿では,脳機構をグラフベースで計画するHRLを橋渡しし,海馬-線条体様の二重制御系仮説を提案する。
生物の脳機構(すなわち海馬のリプレイで見られるハイリワードの嗜好)と事例ベース理論に着想を得て, メモリグラフ構築のためのハイリターンサンプリング戦略を提案し, サンプル効率を向上する。
さらに, モデルフリーな低レベルQ関数勾配ペナルティを導出し, 先行研究におけるモデル依存性問題を解消し, アプリケーションにおけるリプシッツ制約の一般化を改善する。
最後に, この2つの拡張, High-Reward Graph と Model-free Gradient Penalty (HG2P) を最先端フレームワーク ACLG に統合し, 新たな目標条件付き HRL フレームワーク HG2P+ACLG を提案する。
実験により,本手法は,様々な長距離ナビゲーションタスクやロボット操作タスクにおいて,最先端の目標条件付きHRLアルゴリズムよりも優れていることが示された。
関連論文リスト
- Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。
HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。
挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - GHIL-Glue: Hierarchical Control with Filtered Subgoal Images [68.36060286192262]
Generative Hierarchical Imitation Learning-Glue (GHIL-Glue) は、言語条件のイメージやビデオ予測モデルを低レベルな目標条件のポリシーで結合するインタフェースである。
GHIL-Glueはタスクの進行に繋がらないサブゴールをフィルタリングし、有害な視覚的アーティファクトを持つ生成されたサブゴールに対するゴール条件付きポリシーの堅牢性を改善する。
我々は、GHIL-Glueが生成サブゴールを利用する複数の階層モデルに対して25%改善するシミュレーション環境と実環境の両方において、広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-26T00:32:21Z) - Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF [82.73541793388]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Guided Cooperation in Hierarchical Reinforcement Learning via Model-based Rollout [16.454305212398328]
モデルベースロールアウト(GCMR)を用いたガイド協調という,目標条件付き階層型強化学習(HRL)フレームワークを提案する。
GCMRは、フォワードダイナミクスを利用して層間情報同期と協調をブリッジすることを目的としている。
実験により,提案したGCMRフレームワークをHIGLのアンタングル変種(ACLG)に組み込むことにより,より安定かつ堅牢な政策改善が得られた。
論文 参考訳(メタデータ) (2023-09-24T00:13:16Z) - SHIRO: Soft Hierarchical Reinforcement Learning [0.0]
効率的な探索のためにエントロピーを最大化するオフポリシーHRLアルゴリズムを提案する。
このアルゴリズムは、時間的に抽象化された低レベルポリシーを学習し、高レベルへのエントロピーの追加を通じて広範囲に探索することができる。
提案手法は, ロボット制御ベンチマークタスクのシミュレーションにおいて, 最先端性能を上回っている。
論文 参考訳(メタデータ) (2022-12-24T17:21:58Z) - DHRL: A Graph-Based Approach for Long-Horizon and Sparse Hierarchical
Reinforcement Learning [26.973783464706447]
階層強化学習(HRL)は、時間的抽象化を利用して複雑な制御タスクに顕著な進歩をもたらした。
従来のHRLアルゴリズムは、環境が大きくなるにつれて深刻なデータ非効率に悩まされることが多い。
本稿では,階層型強化学習(DHRL)におけるグラフを用いたホライズン分離手法を提案する。
論文 参考訳(メタデータ) (2022-10-11T05:09:34Z) - Deep Manifold Learning with Graph Mining [80.84145791017968]
グラフマイニングのための非段階的決定層を持つ新しいグラフ深層モデルを提案する。
提案モデルでは,現行モデルと比較して最先端性能を実現している。
論文 参考訳(メタデータ) (2022-07-18T04:34:08Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。