論文の概要: Feudal Graph Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.05099v1
- Date: Tue, 11 Apr 2023 09:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 15:31:57.212536
- Title: Feudal Graph Reinforcement Learning
- Title(参考訳): 封建グラフ強化学習
- Authors: Tommaso Marzi, Arshjot Khehra, Andrea Cini, Cesare Alippi
- Abstract要約: 我々は,異なる構造を持つ様々な物理エージェントを制御するための構成可能なポリシーの学習に重点を置いている。
本研究では,制御動作が階層的なメッセージパッシングプロセスの結果となるエージェントを開発するために,フェーダル強化学習パラダイムを採用する。
- 参考スコア(独自算出の注目度): 10.219833196479142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on learning composable policies to control a variety of physical
agents with possibly different structures. Among state-of-the-art methods,
prominent approaches exploit graph-based representations and weight-sharing
modular policies based on the message-passing framework. However, as shown by
recent literature, message passing can create bottlenecks in information
propagation and hinder global coordination. This drawback can become even more
problematic in tasks where high-level planning is crucial. In fact, in similar
scenarios, each modular policy - e.g., controlling a joint of a robot - would
request to coordinate not only for basic locomotion but also achieve high-level
goals, such as navigating a maze. A classical solution to avoid similar
pitfalls is to resort to hierarchical decision-making. In this work, we adopt
the Feudal Reinforcement Learning paradigm to develop agents where control
actions are the outcome of a hierarchical (pyramidal) message-passing process.
In the proposed Feudal Graph Reinforcement Learning (FGRL) framework,
high-level decisions at the top level of the hierarchy are propagated through a
layered graph representing a hierarchy of policies. Lower layers mimic the
morphology of the physical system and upper layers can capture more abstract
sub-modules. The purpose of this preliminary work is to formalize the framework
and provide proof-of-concept experiments on benchmark environments (MuJoCo
locomotion tasks). Empirical evaluation shows promising results on both
standard benchmarks and zero-shot transfer learning settings.
- Abstract(参考訳): 我々は、様々な物理的エージェントを制御できる構成可能なポリシーを学習することに注力する。
最先端の手法では、グラフベースの表現と、メッセージパッシングフレームワークに基づいた重み付けモジュールポリシーを利用する。
しかし、最近の文献で示されているように、メッセージパッシングは情報伝達のボトルネックを生じさせ、グローバルな協調を妨げる可能性がある。
この欠点は、高レベルの計画が重要であるタスクでさらに問題となる可能性がある。
実際、同様のシナリオでは、各モジュラーポリシー(例えば、ロボットの関節を制御)は、基本的な移動だけでなく、迷路をナビゲートするといった高い目標を達成するための調整を要求する。
同様の落とし穴を避ける古典的な解決策は階層的な意思決定に頼ることである。
本研究では,制御動作が階層的(ピラミダル)メッセージパッシングプロセスの結果となるエージェントを開発するために,フェイダル強化学習パラダイムを採用する。
提案したFGRL(Feudal Graph Reinforcement Learning)フレームワークでは,階層階層の上位レベルにおける高レベルな決定が,ポリシー階層を表す階層グラフを通じて伝達される。
下層は物理系の形態を模倣し、上層はより抽象的なサブモジュールをキャプチャできる。
この予備作業の目的は、フレームワークを形式化し、ベンチマーク環境で概念実証実験(mujoco locomotion tasks)を提供することである。
実験的な評価は、標準ベンチマークとゼロショット転送学習設定の両方で有望な結果を示す。
関連論文リスト
- Reinforcement Learning with Options and State Representation [105.82346211739433]
この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。
階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
論文 参考訳(メタデータ) (2024-03-16T08:30:55Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Hierarchical Task Network Planning for Facilitating Cooperative
Multi-Agent Reinforcement Learning [33.70599981505335]
本稿では,事前知識を用いて探索空間を減らし,学習を支援するフレームワークであるSOMARLを提案する。
SOMARLではエージェントはMARL環境の一部として扱われ、シンボリック知識は木構造を用いて組み込まれ、知識階層を構築する。
我々はSOMARLをFindTreasureとMoveBoxの2つのベンチマークで評価し、最先端のMARL環境よりも優れた性能を報告した。
論文 参考訳(メタデータ) (2023-06-14T08:51:43Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Position-aware Structure Learning for Graph Topology-imbalance by
Relieving Under-reaching and Over-squashing [67.83086131278904]
トポロジー不均衡は、ラベル付きノードの不均一なトポロジー位置によって引き起こされるグラフ固有の不均衡問題である。
PASTEL という新しい位置認識型グラフ構造学習フレームワークを提案する。
私たちの重要な洞察は、より監督的な情報を得るために、同じクラス内のノードの接続性を高めることです。
論文 参考訳(メタデータ) (2022-08-17T14:04:21Z) - Towards Unsupervised Deep Graph Structure Learning [67.58720734177325]
本稿では,学習したグラフトポロジを外部ガイダンスなしでデータ自身で最適化する,教師なしグラフ構造学習パラダイムを提案する。
具体的には、元のデータから"アンカーグラフ"として学習目標を生成し、対照的な損失を用いてアンカーグラフと学習グラフとの一致を最大化する。
論文 参考訳(メタデータ) (2022-01-17T11:57:29Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Multi-Level Attention Pooling for Graph Neural Networks: Unifying Graph
Representations with Multiple Localities [4.142375560633827]
グラフニューラルネットワーク(GNN)は、グラフ構造データのベクトル表現を学ぶために広く使用されている。
潜在的な原因は、深いGNNモデルは、多くのメッセージ通過ステップを通じてノードのローカル情報を失う傾向にある。
このいわゆる過度な問題を解くために,マルチレベルアテンションプールアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-02T05:58:12Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。