論文の概要: Feudal Graph Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.05099v3
- Date: Fri, 16 Feb 2024 08:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 21:07:02.101575
- Title: Feudal Graph Reinforcement Learning
- Title(参考訳): 封建グラフ強化学習
- Authors: Tommaso Marzi, Arshjot Khehra, Andrea Cini, Cesare Alippi
- Abstract要約: Feudal Graph Reinforcement Learning (FGRL)は、階層化されたグラフ構造を通じて上位から上位のコマンドが伝播するポリシーの階層を定義する。
提案手法をMuJoCo環境のベンチマークで評価し,FGRLが関連するベースラインと良好に比較可能であることを示す。
- 参考スコア(独自算出の注目度): 19.739901034066587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph-based representations and weight-sharing modular policies constitute
prominent approaches to tackling composable control problems in Reinforcement
Learning (RL). However, as shown by recent graph deep learning literature,
message-passing operators can create bottlenecks in information propagation and
hinder global coordination. The issue becomes dramatic in tasks where
high-level planning is needed. In this work, we propose a novel methodology,
named Feudal Graph Reinforcement Learning (FGRL), that addresses such
challenges by relying on hierarchical RL and a pyramidal message-passing
architecture. In particular, FGRL defines a hierarchy of policies where
high-level commands are propagated from the top of the hierarchy down through a
layered graph structure. The bottom layers mimic the morphology of the physical
system, while the upper layers capture more abstract sub-modules. The resulting
agents are then characterized by a committee of policies where actions at a
certain level set goals for the level below, thus implementing a hierarchical
decision-making structure that encompasses task decomposition. We evaluate the
proposed framework on locomotion tasks on benchmark MuJoCo environments and
show that FGRL compares favorably against relevant baselines. Furthermore, an
in-depth analysis of the command propagation mechanism provides evidence that
the introduced message-passing scheme favors the learning of hierarchical
decision-making policies.
- Abstract(参考訳): グラフベースの表現と重み付けモジュールポリシーは、強化学習(RL)における構成可能な制御問題に対処するための顕著なアプローチである。
しかし、最近のグラフ深層学習文献で示されているように、メッセージパッシング演算子は情報伝達のボトルネックを生じさせ、グローバルな調整を妨げる。
ハイレベルな計画が必要なタスクでは、この問題は劇的になります。
本研究では,階層的RLとピラミッド型メッセージパッシングアーキテクチャに頼って,このような課題に対処する新しい手法であるFeudal Graph Reinforcement Learning (FGRL)を提案する。
特に、fgrlは、階層の上部から階層化されたグラフ構造を通じてハイレベルなコマンドが伝播するポリシーの階層を定義する。
下層は物理系の形態を模倣し、上層はより抽象的なサブモジュールをキャプチャする。
結果として得られたエージェントは、あるレベルのアクションが以下のレベルの目標を設定するポリシー委員会によって特徴づけられ、タスクの分解を包含する階層的な意思決定構造を実装する。
提案手法をベンチマークmujoco環境上で評価し,fgrlが関連するベースラインと好適に比較できることを示す。
さらに、コマンド伝搬機構の詳細な分析により、メッセージパッシング方式が階層的な意思決定方針の学習に有利であることを示す。
関連論文リスト
- Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Hierarchical Task Network Planning for Facilitating Cooperative
Multi-Agent Reinforcement Learning [33.70599981505335]
本稿では,事前知識を用いて探索空間を減らし,学習を支援するフレームワークであるSOMARLを提案する。
SOMARLではエージェントはMARL環境の一部として扱われ、シンボリック知識は木構造を用いて組み込まれ、知識階層を構築する。
我々はSOMARLをFindTreasureとMoveBoxの2つのベンチマークで評価し、最先端のMARL環境よりも優れた性能を報告した。
論文 参考訳(メタデータ) (2023-06-14T08:51:43Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Position-aware Structure Learning for Graph Topology-imbalance by
Relieving Under-reaching and Over-squashing [67.83086131278904]
トポロジー不均衡は、ラベル付きノードの不均一なトポロジー位置によって引き起こされるグラフ固有の不均衡問題である。
PASTEL という新しい位置認識型グラフ構造学習フレームワークを提案する。
私たちの重要な洞察は、より監督的な情報を得るために、同じクラス内のノードの接続性を高めることです。
論文 参考訳(メタデータ) (2022-08-17T14:04:21Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - Towards Unsupervised Deep Graph Structure Learning [67.58720734177325]
本稿では,学習したグラフトポロジを外部ガイダンスなしでデータ自身で最適化する,教師なしグラフ構造学習パラダイムを提案する。
具体的には、元のデータから"アンカーグラフ"として学習目標を生成し、対照的な損失を用いてアンカーグラフと学習グラフとの一致を最大化する。
論文 参考訳(メタデータ) (2022-01-17T11:57:29Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Multi-Level Attention Pooling for Graph Neural Networks: Unifying Graph
Representations with Multiple Localities [4.142375560633827]
グラフニューラルネットワーク(GNN)は、グラフ構造データのベクトル表現を学ぶために広く使用されている。
潜在的な原因は、深いGNNモデルは、多くのメッセージ通過ステップを通じてノードのローカル情報を失う傾向にある。
このいわゆる過度な問題を解くために,マルチレベルアテンションプールアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-02T05:58:12Z) - Distilling a Hierarchical Policy for Planning and Control via
Representation and Reinforcement Learning [18.415568038071306]
エージェントが様々なタスクを実行し、新しいタスクに柔軟に対応できる階層的計画制御フレームワークを提案する。
各タスクに対する個別のポリシーを学ぶのではなく、提案するフレームワークであるdisHは、表現と強化学習によって一連のタスクから階層的なポリシーを蒸留する。
論文 参考訳(メタデータ) (2020-11-16T23:58:49Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。