論文の概要: MAVIPER: Learning Decision Tree Policies for Interpretable Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.12449v1
- Date: Wed, 25 May 2022 02:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 19:57:50.500357
- Title: MAVIPER: Learning Decision Tree Policies for Interpretable Multi-Agent
Reinforcement Learning
- Title(参考訳): MAVIPER:多エージェント強化学習のための決定木ポリシーの学習
- Authors: Stephanie Milani and Zhicheng Zhang and Nicholay Topin and Zheyuan
Ryan Shi and Charles Kamhoua and Evangelos E. Papalexakis and Fei Fang
- Abstract要約: 本稿では,MARLを用いて訓練されたニューラルネットワークから決定木ポリシーを抽出する,解釈可能なMARLアルゴリズムの最初のセットを提案する。
第1のアルゴリズムであるIVIPERは、シングルエージェント解釈可能なRLの最近の方法であるVIPERをマルチエージェント設定に拡張する。
そこで本研究では,エージェント間の協調関係をよりよく把握するために,新しい集中型決定木学習アルゴリズムMAVIPERを提案する。
- 参考スコア(独自算出の注目度): 38.77840067555711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many recent breakthroughs in multi-agent reinforcement learning (MARL)
require the use of deep neural networks, which are challenging for human
experts to interpret and understand. On the other hand, existing work on
interpretable RL has shown promise in extracting more interpretable decision
tree-based policies, but only in the single-agent setting. To fill this gap, we
propose the first set of interpretable MARL algorithms that extract
decision-tree policies from neural networks trained with MARL. The first
algorithm, IVIPER, extends VIPER, a recent method for single-agent
interpretable RL, to the multi-agent setting. We demonstrate that IVIPER can
learn high-quality decision-tree policies for each agent. To better capture
coordination between agents, we propose a novel centralized decision-tree
training algorithm, MAVIPER. MAVIPER jointly grows the trees of each agent by
predicting the behavior of the other agents using their anticipated trees, and
uses resampling to focus on states that are critical for its interactions with
other agents. We show that both algorithms generally outperform the baselines
and that MAVIPER-trained agents achieve better-coordinated performance than
IVIPER-trained agents on three different multi-agent particle-world
environments.
- Abstract(参考訳): マルチエージェント強化学習(marl:multi-agent reinforcement learning)における最近の多くのブレークスルーでは、ディープニューラルネットワークの使用が求められている。
一方、解釈可能なRLに関する既存の研究は、より解釈可能な決定木ベースのポリシーを抽出することを約束している。
このギャップを埋めるために、MARLで訓練されたニューラルネットワークから決定木ポリシーを抽出する解釈可能なMARLアルゴリズムの最初のセットを提案する。
最初のアルゴリズムであるIVIPERは、シングルエージェント解釈可能なRLの最近の方法であるVIPERをマルチエージェント設定に拡張する。
IVIPERが各エージェントに対して高品質な決定木ポリシーを学習できることを実証する。
エージェント間のコーディネーションをよりよく把握するために,新たな集中型決定木訓練アルゴリズムmaviperを提案する。
MAVIPERは、予測された木を用いて他のエージェントの行動を予測することによって、各エージェントのツリーを共同で成長させ、リサンプリングを使用して、他のエージェントとの相互作用に重要な状態に集中する。
両アルゴリズムは一般にベースラインを上回り,MAVIPER学習エージェントは3つの異なるマルチエージェント粒子世界環境において,IVIPER学習エージェントよりも優れた協調性能が得られることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding [18.06081009550052]
MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。
いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。
優先度付きハイブリッドポリシ(EPH)を組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:47:12Z) - Decentralized Monte Carlo Tree Search for Partially Observable
Multi-agent Pathfinding [49.730902939565986]
マルチエージェントパスフィンディング問題は、グラフに閉じ込められたエージェントのグループに対するコンフリクトフリーパスのセットを見つけることである。
本研究では、エージェントが他のエージェントをローカルにのみ観察できる分散MAPF設定に焦点を当てた。
MAPFタスクのための分散マルチエージェントモンテカルロ木探索法を提案する。
論文 参考訳(メタデータ) (2023-12-26T06:57:22Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Recursive Reasoning Graph for Multi-Agent Reinforcement Learning [44.890087638530524]
マルチエージェント強化学習(MARL)は、複数のエージェントが相互に相互作用するポリシーを同時に学習する効率的な方法である。
既存のアルゴリズムは、他のエージェントに対する自己行動の影響を正確に予測できない。
提案アルゴリズムはRecursive Reasoning Graph (R2G)と呼ばれ、複数のマルチエージェント粒子およびロボットゲームにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2022-03-06T00:57:50Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Agent-Centric Representations for Multi-Agent Reinforcement Learning [12.577354830985012]
完全協調型マルチエージェント強化学習において,対象中心表現が有用であるかどうかを検討する。
具体的には、RLアルゴリズムにエージェント中心の誘導バイアスを組み込む2つの方法を検討する。
これらのアプローチをGoogle Research Football環境およびDeepMind Lab 2D上で評価します。
論文 参考訳(メタデータ) (2021-04-19T15:43:40Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。