論文の概要: Feudal Graph Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.05099v1
- Date: Tue, 11 Apr 2023 09:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 15:31:57.212536
- Title: Feudal Graph Reinforcement Learning
- Title(参考訳): 封建グラフ強化学習
- Authors: Tommaso Marzi, Arshjot Khehra, Andrea Cini, Cesare Alippi
- Abstract要約: 我々は,異なる構造を持つ様々な物理エージェントを制御するための構成可能なポリシーの学習に重点を置いている。
本研究では,制御動作が階層的なメッセージパッシングプロセスの結果となるエージェントを開発するために,フェーダル強化学習パラダイムを採用する。
- 参考スコア(独自算出の注目度): 10.219833196479142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on learning composable policies to control a variety of physical
agents with possibly different structures. Among state-of-the-art methods,
prominent approaches exploit graph-based representations and weight-sharing
modular policies based on the message-passing framework. However, as shown by
recent literature, message passing can create bottlenecks in information
propagation and hinder global coordination. This drawback can become even more
problematic in tasks where high-level planning is crucial. In fact, in similar
scenarios, each modular policy - e.g., controlling a joint of a robot - would
request to coordinate not only for basic locomotion but also achieve high-level
goals, such as navigating a maze. A classical solution to avoid similar
pitfalls is to resort to hierarchical decision-making. In this work, we adopt
the Feudal Reinforcement Learning paradigm to develop agents where control
actions are the outcome of a hierarchical (pyramidal) message-passing process.
In the proposed Feudal Graph Reinforcement Learning (FGRL) framework,
high-level decisions at the top level of the hierarchy are propagated through a
layered graph representing a hierarchy of policies. Lower layers mimic the
morphology of the physical system and upper layers can capture more abstract
sub-modules. The purpose of this preliminary work is to formalize the framework
and provide proof-of-concept experiments on benchmark environments (MuJoCo
locomotion tasks). Empirical evaluation shows promising results on both
standard benchmarks and zero-shot transfer learning settings.
- Abstract(参考訳): 我々は、様々な物理的エージェントを制御できる構成可能なポリシーを学習することに注力する。
最先端の手法では、グラフベースの表現と、メッセージパッシングフレームワークに基づいた重み付けモジュールポリシーを利用する。
しかし、最近の文献で示されているように、メッセージパッシングは情報伝達のボトルネックを生じさせ、グローバルな協調を妨げる可能性がある。
この欠点は、高レベルの計画が重要であるタスクでさらに問題となる可能性がある。
実際、同様のシナリオでは、各モジュラーポリシー(例えば、ロボットの関節を制御)は、基本的な移動だけでなく、迷路をナビゲートするといった高い目標を達成するための調整を要求する。
同様の落とし穴を避ける古典的な解決策は階層的な意思決定に頼ることである。
本研究では,制御動作が階層的(ピラミダル)メッセージパッシングプロセスの結果となるエージェントを開発するために,フェイダル強化学習パラダイムを採用する。
提案したFGRL(Feudal Graph Reinforcement Learning)フレームワークでは,階層階層の上位レベルにおける高レベルな決定が,ポリシー階層を表す階層グラフを通じて伝達される。
下層は物理系の形態を模倣し、上層はより抽象的なサブモジュールをキャプチャできる。
この予備作業の目的は、フレームワークを形式化し、ベンチマーク環境で概念実証実験(mujoco locomotion tasks)を提供することである。
実験的な評価は、標準ベンチマークとゼロショット転送学習設定の両方で有望な結果を示す。
関連論文リスト
- Offline Hierarchical Reinforcement Learning via Inverse Optimization [23.664330010602708]
OHIOは、階層的ポリシーのオフライン強化学習のためのフレームワークである。
エンド・ツー・エンドのRL法を大幅に上回り、ロバスト性を向上させる。
論文 参考訳(メタデータ) (2024-10-10T14:00:21Z) - Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Temporal Abstraction in Reinforcement Learning with Offline Data [8.370420807869321]
本稿では,オンライン階層型強化学習アルゴリズムを,未知の行動ポリシーによって収集されたトランジションのオフラインデータセット上でトレーニング可能なフレームワークを提案する。
我々は,Gym MuJoCo環境とロボットグリップのブロックスタッキングタスク,トランスファーおよびゴール条件設定について検証した。
論文 参考訳(メタデータ) (2024-07-21T18:10:31Z) - Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - Reinforcement Learning with Options and State Representation [105.82346211739433]
この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。
階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
論文 参考訳(メタデータ) (2024-03-16T08:30:55Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Towards Unsupervised Deep Graph Structure Learning [67.58720734177325]
本稿では,学習したグラフトポロジを外部ガイダンスなしでデータ自身で最適化する,教師なしグラフ構造学習パラダイムを提案する。
具体的には、元のデータから"アンカーグラフ"として学習目標を生成し、対照的な損失を用いてアンカーグラフと学習グラフとの一致を最大化する。
論文 参考訳(メタデータ) (2022-01-17T11:57:29Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Multi-Level Attention Pooling for Graph Neural Networks: Unifying Graph
Representations with Multiple Localities [4.142375560633827]
グラフニューラルネットワーク(GNN)は、グラフ構造データのベクトル表現を学ぶために広く使用されている。
潜在的な原因は、深いGNNモデルは、多くのメッセージ通過ステップを通じてノードのローカル情報を失う傾向にある。
このいわゆる過度な問題を解くために,マルチレベルアテンションプールアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-03-02T05:58:12Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。