論文の概要: Feudal Graph Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.05099v2
- Date: Tue, 6 Feb 2024 15:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 21:02:27.004421
- Title: Feudal Graph Reinforcement Learning
- Title(参考訳): 封建グラフ強化学習
- Authors: Tommaso Marzi, Arshjot Khehra, Andrea Cini, Cesare Alippi
- Abstract要約: Feudal Graph Reinforcement Learning (FGRL)は、階層化されたグラフ構造を通じて上位から上位のコマンドが伝播するポリシーの階層を定義する。
提案手法をMuJoCo環境のベンチマークで評価し,FGRLが関連するベースラインと良好に比較可能であることを示す。
- 参考スコア(独自算出の注目度): 19.739901034066587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph-based representations and weight-sharing modular policies constitute
prominent approaches to tackling composable control problems in Reinforcement
Learning (RL). However, as shown by recent graph deep learning literature,
message-passing operators can create bottlenecks in information propagation and
hinder global coordination. The issue becomes dramatic in tasks where
high-level planning is needed. In this work, we propose a novel methodology,
named Feudal Graph Reinforcement Learning (FGRL), that addresses such
challenges by relying on hierarchical RL and a pyramidal message-passing
architecture. In particular, FGRL defines a hierarchy of policies where
high-level commands are propagated from the top of the hierarchy down through a
layered graph structure. The bottom layers mimic the morphology of the physical
system, while the upper layers capture more abstract sub-modules. The resulting
agents are then characterized by a committee of policies where actions at a
certain level set goals for the level below, thus implementing a hierarchical
decision-making structure that encompasses task decomposition. We evaluate the
proposed framework on locomotion tasks on benchmark MuJoCo environments and
show that FGRL compares favorably against relevant baselines. Furthermore, an
in-depth analysis of the command propagation mechanism provides evidence that
the introduced message-passing scheme favors the learning of hierarchical
decision-making policies.
- Abstract(参考訳): グラフベースの表現と重み付けモジュールポリシーは、強化学習(RL)における構成可能な制御問題に対処するための顕著なアプローチである。
しかし、最近のグラフ深層学習文献で示されているように、メッセージパッシング演算子は情報伝達のボトルネックを生じさせ、グローバルな調整を妨げる。
ハイレベルな計画が必要なタスクでは、この問題は劇的になります。
本研究では,階層的RLとピラミッド型メッセージパッシングアーキテクチャに頼って,このような課題に対処する新しい手法であるFeudal Graph Reinforcement Learning (FGRL)を提案する。
特に、fgrlは、階層の上部から階層化されたグラフ構造を通じてハイレベルなコマンドが伝播するポリシーの階層を定義する。
下層は物理系の形態を模倣し、上層はより抽象的なサブモジュールをキャプチャする。
結果として得られたエージェントは、あるレベルのアクションが以下のレベルの目標を設定するポリシー委員会によって特徴づけられ、タスクの分解を包含する階層的な意思決定構造を実装する。
提案手法をベンチマークmujoco環境上で評価し,fgrlが関連するベースラインと好適に比較できることを示す。
さらに、コマンド伝搬機構の詳細な分析により、メッセージパッシング方式が階層的な意思決定方針の学習に有利であることを示す。
関連論文リスト
- Offline Hierarchical Reinforcement Learning via Inverse Optimization [23.664330010602708]
OHIOは、階層的ポリシーのオフライン強化学習のためのフレームワークである。
エンド・ツー・エンドのRL法を大幅に上回り、ロバスト性を向上させる。
論文 参考訳(メタデータ) (2024-10-10T14:00:21Z) - Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Temporal Abstraction in Reinforcement Learning with Offline Data [8.370420807869321]
本稿では,オンライン階層型強化学習アルゴリズムを,未知の行動ポリシーによって収集されたトランジションのオフラインデータセット上でトレーニング可能なフレームワークを提案する。
我々は,Gym MuJoCo環境とロボットグリップのブロックスタッキングタスク,トランスファーおよびゴール条件設定について検証した。
論文 参考訳(メタデータ) (2024-07-21T18:10:31Z) - Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - Reinforcement Learning with Options and State Representation [105.82346211739433]
この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。
階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
論文 参考訳(メタデータ) (2024-03-16T08:30:55Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Towards Unsupervised Deep Graph Structure Learning [67.58720734177325]
本稿では,学習したグラフトポロジを外部ガイダンスなしでデータ自身で最適化する,教師なしグラフ構造学習パラダイムを提案する。
具体的には、元のデータから"アンカーグラフ"として学習目標を生成し、対照的な損失を用いてアンカーグラフと学習グラフとの一致を最大化する。
論文 参考訳(メタデータ) (2022-01-17T11:57:29Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Multi-Level Attention Pooling for Graph Neural Networks: Unifying Graph
Representations with Multiple Localities [4.142375560633827]
グラフニューラルネットワーク(GNN)は、グラフ構造データのベクトル表現を学ぶために広く使用されている。
潜在的な原因は、深いGNNモデルは、多くのメッセージ通過ステップを通じてノードのローカル情報を失う傾向にある。
このいわゆる過度な問題を解くために,マルチレベルアテンションプールアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-02T05:58:12Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。