論文の概要: Hierarchical Task Network Planning for Facilitating Cooperative
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.08359v1
- Date: Wed, 14 Jun 2023 08:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 19:36:11.995288
- Title: Hierarchical Task Network Planning for Facilitating Cooperative
Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習を支援する階層型タスクネットワーク計画
- Authors: Xuechen Mu, Hankz Hankui Zhuo, Chen Chen, Kai Zhang, Chao Yu and
Jianye Hao
- Abstract要約: 本稿では,事前知識を用いて探索空間を減らし,学習を支援するフレームワークであるSOMARLを提案する。
SOMARLではエージェントはMARL環境の一部として扱われ、シンボリック知識は木構造を用いて組み込まれ、知識階層を構築する。
我々はSOMARLをFindTreasureとMoveBoxの2つのベンチマークで評価し、最先端のMARL環境よりも優れた性能を報告した。
- 参考スコア(独自算出の注目度): 33.70599981505335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring sparse reward multi-agent reinforcement learning (MARL)
environments with traps in a collaborative manner is a complex task. Agents
typically fail to reach the goal state and fall into traps, which affects the
overall performance of the system. To overcome this issue, we present SOMARL, a
framework that uses prior knowledge to reduce the exploration space and assist
learning. In SOMARL, agents are treated as part of the MARL environment, and
symbolic knowledge is embedded using a tree structure to build a knowledge
hierarchy. The framework has a two-layer hierarchical structure, comprising a
hybrid module with a Hierarchical Task Network (HTN) planning and
meta-controller at the higher level, and a MARL-based interactive module at the
lower level. The HTN module and meta-controller use Hierarchical Domain
Definition Language (HDDL) and the option framework to formalize symbolic
knowledge and obtain domain knowledge and a symbolic option set, respectively.
Moreover, the HTN module leverages domain knowledge to guide low-level agent
exploration by assisting the meta-controller in selecting symbolic options. The
meta-controller further computes intrinsic rewards of symbolic options to limit
exploration behavior and adjust HTN planning solutions as needed. We evaluate
SOMARL on two benchmarks, FindTreasure and MoveBox, and report superior
performance over state-of-the-art MARL and subgoal-based baselines for MARL
environments significantly.
- Abstract(参考訳): sparse reward multi-agent reinforcement learning (marl)環境を共同方法でトラップで探索することは複雑なタスクである。
エージェントは通常、目標状態に達しず、トラップに陥り、システム全体のパフォーマンスに影響を与えます。
そこで本稿では,事前知識を用いて探索空間を縮小し,学習を支援するフレームワークであるSOMARLを提案する。
SOMARLではエージェントはMARL環境の一部として扱われ、シンボリック知識は木構造を用いて組み込まれ、知識階層を構築する。
本フレームワークは,階層型タスクネットワーク(HTN)とメタコントローラを備えたハイブリッドモジュールを高レベルで,MARLベースの対話モジュールを低レベルとする2層階層構造を有する。
HTNモジュールとメタコントローラは階層的ドメイン定義言語(HDDL)とオプションフレームワークを使用して、それぞれ記号的知識を形式化し、ドメイン知識と記号的オプションセットを取得する。
さらに、HTNモジュールはドメイン知識を活用し、メタコントローラがシンボリックオプションを選択するのを支援することで、低レベルのエージェント探索を誘導する。
メタコントローラはさらに、探索行動を制限し、必要に応じてHTN計画ソリューションを調整するために、シンボリックオプションの固有の報酬を計算する。
我々は,findtreasureとmoveboxの2つのベンチマークでsomarlを評価し,最先端のmarlおよびmarl環境におけるsubgoalベースラインよりも優れた性能を報告した。
関連論文リスト
- Hierarchical Repository-Level Code Summarization for Business Applications Using Local LLMs [1.4932549821542682]
既存のメソッドは主に関数のような小さなコードユニットにフォーカスし、ファイルやパッケージのような大きなコードアーティファクトと競合する。
本稿では,ビジネスアプリケーションに適した,リポジトリレベルのコード要約のための2段階階層的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-14T05:48:27Z) - Reinforcement Learning with Options and State Representation [105.82346211739433]
この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。
階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
論文 参考訳(メタデータ) (2024-03-16T08:30:55Z) - Hierarchical Spatio-Temporal Representation Learning for Gait
Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。
粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。
本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-07-19T09:30:00Z) - Feudal Graph Reinforcement Learning [18.069747511100132]
グラフに基づく表現とメッセージパッシングモジュールポリシーは、強化学習(RL)における構成可能な制御問題に対処するための顕著なアプローチである
本稿では,階層的RLとピラミッド型メッセージパッシングアーキテクチャを頼りに,このような課題に対処する新しい手法であるFeudal Graph Reinforcement Learning (FGRL)を提案する。
特に、FGRLは階層化されたグラフ構造を通して、階層の上部から上位のコマンドが伝播するポリシーの階層を定義している。
論文 参考訳(メタデータ) (2023-04-11T09:51:13Z) - Learning Rational Subgoals from Demonstrations and Instructions [71.86713748450363]
本稿では,新しい目標を達成するための効率的な長期計画を支援する有用なサブゴール学習フレームワークを提案する。
我々のフレームワークの中核は合理的なサブゴール(RSG)の集合であり、基本的には環境状態上の二項分類器である。
目標記述が与えられた場合、学習したサブゴールと派生した依存関係は、A*やRTといった既成の計画アルゴリズムを促進する。
論文 参考訳(メタデータ) (2023-03-09T18:39:22Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - From proprioception to long-horizon planning in novel environments: A
hierarchical RL model [4.44317046648898]
本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
論文 参考訳(メタデータ) (2020-06-11T17:19:12Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。